محول من كتب إلكترونية (eBooks) إلى كتب صوتية باستخدام معالج CPU/GPU مع الفصول والبيانات الوصفية باستخدام Calibre، ffmpeg، XTTSv2، Fairseq والمزيد. يدعم استنساخ الصوت و1124 لغة!
Important
أداة التحويل هذه مخصصة للاستخدام مع الكتب الإلكترونية غير المحمية بحقوق DRM، والتي تم الحصول عليها قانونيًا فقط.
المؤلفون غير مسؤولين عن أي إساءة استخدام لهذه الأداة أو أي تبعات قانونية ناتجة عنها. يرجى استخدام هذه الأداة بشكل مسؤول ووفقًا لجميع القوانين المعمول بها.
- الإنجليزية English
- المقدمة
- المميزات
- واجهة المستخدم الجديدة v2.0 عبر الويب
- عرض تجريبي على Huggingface Space
- Google Colab مجاني
- عروض صوتية جاهزة
- اللغات المدعومة
- المتطلبات
- تعليمات التثبيت
- نماذج TTS المحسنة
- استخدام Docker
- تنسيقات الكتب الإلكترونية المدعومة
- المخرجات
- المشاكل الشائعة
- شكر خاص
- انضم إلى خادم Discord الخاص بنا!
- الإصدار القديم
- مسرد الأقسام
- 📖 يحول الكتب الإلكترونية إلى صيغة نص باستخدام Calibre.
- 📚 يقسم الكتاب الإلكتروني إلى فصول للحصول على صوتيات منظمة.
- 🎙️ يقدم تحويل النص إلى كلام بجودة عالية باستخدام Coqui XTTSv2 و Fairseq.
- 🗣️ يدعم استنساخ الصوت باستخدام ملف صوتي خاص بك.
- 🌍 يدعم 1107 لغة (الإنجليزية افتراضيًا). قائمة اللغات المدعومة
- 🖥️ مصمم للعمل على أجهزة تحتوي على 4 جيجابايت من ذاكرة الوصول العشوائي (RAM).
- مساحة Huggingface تعمل على الطبقة المجانية لوحدة المعالجة المركزية (CPU)، لذا توقع بطء الأداء أو انتهاء المهلة (timeout). فقط تجنب إدخال ملفات كبيرة للغاية.
- من الأفضل تكرار المساحة إلى حسابك الخاص أو تشغيلها محليًا لتحسين الأداء.
- العربية (ara)
- الصينية (zho)
- التشيكية (ces)
- الهولندية (nld)
- الإنجليزية (eng)
- الفرنسية (fra)
- الألمانية (deu)
- الهندية (hin)
- المجرية (hun)
- الإيطالية (ita)
- اليابانية (jpn)
- الكورية (kor)
- البولندية (pol)
- البرتغالية (por)
- الروسية (rus)
- الأسبانية (spa)
- التركية (tur)
- الفيتنامية (vie)
- + 1107 لغة عبر Fairseq
- 4 جيجابايت من الذاكرة العشوائية (RAM).
- تمكين المحاكاة الافتراضية إذا كنت تستخدم Windows (لـ Docker فقط).
- استنساخ المستودع
git clone https://github.com/DrewThomasson/ebook2audiobook.git
حدد رمز اللغة عند تشغيل السكربت في الوضع.
1. تشغيل البرنامج:
- لينكس/ماك (Linux/MacOS):
./ebook2audiobook.sh # Run Launch script
- ويندوز (Windows)
.\ebook2audiobook.cmd # Run launch script
2. افتح التطبيق عبر الويب: انقر على الرابط المقدم في الطرفية (terminal) للوصول إلى التطبيق وتحويل الكتب الإلكترونية.
3. للحصول على الرابط العام: أضف share--
في نهاية الأمر مثل هذا: python app.py --share
- [لمزيد من الأوامر]: استخدم الأمر
help--
مثل هذا:python app.py --help
-
لينكس/ماك (Linux/MacOS):
./ebook2audiobook.sh -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]
-
ويندوز (Windows)
.\ebook2audiobook.cmd -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]
-
<path_to_ebook_file>: مسار ملف الكتاب الإلكتروني.
-
[path_to_voice_file]: اختياري لاستنساخ الصوت.
-
[language_code]: اختياري لتحديد رمز لغة ISO-639-3 (افتراضيًا "eng"). يدعم أيضًا رموز ISO-639-1 ذات الحرفين.
-
[للمزيد من الخيارات]: استخدم الأمر
help--
بهذا الشكل:python app.py --help
-
لينكس/ماك (Linux/MacOS):
./ebook2audiobook.sh -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>
-
ويندوز (Windows)
.\ebook2audiobook.cmd -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>
-
<ebook_file_path>: مسار ملف الكتاب الإلكتروني الخاص بك.
-
<target_voice_file_path>: اختياري لاستنساخ الصوت.
-
< language >: اختياري لتحديد اللغة.
-
<custom_model_path>: مسار ملف
model.pth
. -
<custom_config_path>: مسار ملف
config.json
. -
<custom_vocab_path>: مسار ملف
vocab.json
. -
[للمزيد من الخيارات]: استخدم الأمر
help--
بهذا الشكل:python app.py --help
- لينكس/ماك (Linux/MacOS):
./ebook2audiobook.sh --help
- ويندوز (Windows)
.\ebook2audiobook.cmd --help
- سيؤدي ذلك إلى إخراج النتيجة التالية.
usage: app.py [-h] [--script_mode SCRIPT_MODE] [--share] [-- []]
[--session SESSION] [--ebook EBOOK] [--ebooks_dir [EBOOKS_DIR]]
[--voice VOICE] [--language LANGUAGE] [--device {cpu,gpu}]
[--custom_model CUSTOM_MODEL] [--temperature TEMPERATURE]
[--length_penalty LENGTH_PENALTY]
[--repetition_penalty REPETITION_PENALTY] [--top_k TOP_K] [--top_p TOP_P]
[--speed SPEED] [--enable_text_splitting] [--fine_tuned FINE_TUNED]
[--version]
Convert eBooks to Audiobooks using a Text-to-Speech model. You can either launch the Gradio interface or run the script in mode for direct conversion.
options:
-h, --help show this help message and exit
--script_mode SCRIPT_MODE
Force the script to run in NATIVE or DOCKER_UTILS
--share Enable a public shareable Gradio link. Default to False.
-- []
Run in mode. Default to True if the flag is present without a value, False otherwise.
--session SESSION Session to reconnect in case of interruption ( mode only)
--ebook EBOOK Path to the ebook file for conversion. Required in mode.
--ebooks_dir [EBOOKS_DIR]
Path to the directory containing ebooks for batch conversion. Default to "ebooks" if "default" is provided.
--voice VOICE Path to the target voice file for TTS. Optional, must be 24khz for XTTS and 16khz for fairseq models, uses a default voice if not provided.
--language LANGUAGE Language for the audiobook conversion. Options: eng, zho, spa, fra, por, rus, ind, hin, ben, yor, ara, jav, jpn, kor, deu, ita, fas, tam, tel, tur, pol, hun, nld, zzzz, abi, ace, aca, acn, acr, ach, acu, guq, ade, adj, agd, agx, agn, aha, aka, knj, ake, aeu, ahk, bss, alj, sqi, alt, alp, alz, kab, amk, mmg, amh, ami, azg, agg, boj, cko, any, arl, atq, luc, hyw, apr, aia, msy, cni, cjo, cpu, cpb, asm, asa, teo, ati, djk, ava, avn, avu, awb, kwi, awa, agr, agu, ayr, ayo, abp, blx, sgb, azj-script_cyrillic, azj-script_latin, azb, bba, bhz, bvc, bfy, bgq, bdq, bdh, bqi, bjw, blz, ban, bcc-script_latin, bcc-script_arabic, bam, ptu, bcw, bqj, bno, bbb, bfa, bjz, bak, eus, bsq, akb, btd, btx, bts, bbc, bvz, bjv, bep, bkv, bzj, bem, bng, bom, btt, bha, bgw, bht, beh, sne, ubl, bcl, bim, bkd, bjr, bfo, biv, bib, bis, bzi, bqp, bpr, bps, bwq, bdv, bqc, bus, bnp, bmq, bdg, boa, ksr, bor, bru, box, bzh, bgt, sab, bul, bwu, bmv, mya, tte, cjp, cbv, kaq, cot, cbc, car, cat, ceb, cme, cbi, ceg, cly, cya, che, hne, nya, dig, dug, bgr, cek, cfm, cnh, hlt, mwq, ctd, tcz, zyp, cco, cnl, cle, chz, cpa, cso, cnt, cuc, hak, nan, xnj, cap, cax, ctg, ctu, chf, cce, crt, crq, cac-dialect_sansebastiáncoatán, cac-dialect_sanmateoixtatán, ckt, ncu, cdj, chv, caa, asg, con, crn, cok, crk-script_latin, crk-script_syllabics, crh, hrv, cui, ces, dan, dsh, dbq, dga, dgi, dgk, dnj-dialect_gweetaawueast, dnj-dialect_blowowest, daa, dnt, dnw, dar, tcc, dwr, ded, mzw, ntr, ddn, des, dso, nfa, dhi, gud, did, mhu, dip, dik, tbz, dts, dos, dgo, mvp, jen, dzo, idd, eka, cto, emp, enx, sja, myv, mcq, ese, evn, eza, ewe, fal, fao, far, fij, fin, fon, frd, ful, flr, gau, gbk, gag-script_cyrillic, gag-script_latin, gbi, gmv, lug, pwg, gbm, cab, grt, krs, gso, nlg, gej, gri, kik, acd, glk, gof-script_latin, gog, gkn, wsg, gjn, gqr, gor, gux, gbo, ell, grc, guh, gub, grn, gyr, guo, gde, guj, gvl, guk, rub, dah, gwr, gwi, hat, hlb, amf, hag, hnn, bgc, had, hau, hwc, hvn, hay, xed, heb, heh, hil, hif, hns, hoc, hoy, hus-dialect_westernpotosino, hus-dialect_centralveracruz, huv, hui, hap, iba, isl, dbj, ifa, ifb, ifu, ifk, ife, ign, ikk, iqw, ilb, ilo, imo, inb, ipi, irk, icr, itv, itl, atg, ixl-dialect_sanjuancotzal, ixl-dialect_sangasparchajul, ixl-dialect_santamarianebaj, nca, izr, izz, jac, jam, jvn, kac, dyo, csk, adh, jun, jbu, dyu, bex, juy, gna, urb, kbp, cwa, dtp, kbr, cgc, kki, kzf, lew, cbr, kkj, keo, kqe, kak, kyb, knb, kmd, kml, ify, xal, kbq, kay, ktb, hig, gam, cbu, xnr, kmu, kne, kan, kby, pam, cak-dialect_santamaríadejesús, cak-dialect_southcentral, cak-dialect_yepocapa, cak-dialect_western, cak-dialect_santodomingoxenacoj, cak-dialect_central, xrb, krc, kaa, krl, pww, xsm, cbs, pss, kxf, kyz, kyu, txu, kaz, ndp, kbo, kyq, ken, ker, xte, kyg, kjh, kca, khm, kxm, kjg, nyf, kij, kia, kqr, kqp, krj, zga, kin, pkb, geb, gil, kje, kss, thk, klu, kyo, kog, kfb, kpv, bbo, xon, kma, kno, kxc, ozm, kqy, coe, kpq, kpy, kyf, kff-script_telugu, kri, rop, ktj, ted, krr, kdt, kez, cul, kle, kdi, kue, kum, kvn, cuk, kdn, xuo, key, kpz, knk, kmr-script_latin, kmr-script_arabic, kmr-script_cyrillic, xua, kru, kus, kub, kdc, kxv, blh, cwt, kwd, tnk, kwf, cwe, kyc, tye, kir, quc-dialect_north, quc-dialect_east, quc-dialect_central, lac, lsi, lbj, lhu, las, lam, lns, ljp, laj, lao, lat, lav, law, lcp, lzz, lln, lef, acf, lww, mhx, eip, lia, lif, onb, lis, loq, lob, yaz, lok, llg, ycl, lom, ngl, lon, lex, lgg, ruf, dop, lnd, ndy, lwo, lee, mev, mfz, jmc, myy, mbc, mda, mad, mag, ayz, mai, mca, mcp, mak, vmw, mgh, kde, mlg, zlm, pse, mkn, xmm, mal, xdy, div, mdy, mup, mam-dialect_central, mam-dialect_northern, mam-dialect_southern, mam-dialect_western, mqj, mcu, mzk, maw, mjl, mnk, mge, mbh, knf, mjv, mbt, obo, mbb, mzj, sjm, mrw, mar, mpg, mhr, enb, mah, myx, klv, mfh, met, mcb, mop, yua, mfy, maz, vmy, maq, mzi, maj, maa-dialect_sanantonio, maa-dialect_sanjerónimo, mhy, mhi, zmz, myb, gai, mqb, mbu, med, men, mee, mwv, meq, zim, mgo, mej, mpp, min, gum, mpx, mco, mxq, pxm, mto, mim, xta, mbz, mip, mib, miy, mih, miz, xtd, mxt, xtm, mxv, xtn, mie, mil, mio, mdv, mza, mit, mxb, mpm, soy, cmo-script_latin, cmo-script_khmer, mfq, old, mfk, mif, mkl, mox, myl, mqf, mnw, mon, mog, mfe, mor, mqn, mgd, mtj, cmr, mtd, bmr, moz, mzm, mnb, mnf, unr, fmu, mur, tih, muv, muy, sur, moa, wmw, tnr, miq, mos, muh, nas, mbj, nfr, kfw, nst, nag, nch, nhe, ngu, azz, nhx, ncl, nhy, ncj, nsu, npl, nuz, nhw, nhi, nlc, nab, gld, nnb, npy, pbb, ntm, nmz, naw, nxq, ndj, ndz, ndv, new, nij, sba, gng, nga, nnq, ngp, gym, kdj, nia, nim, nin, nko, nog, lem, not, nhu, nob, bud, nus, yas, nnw, nwb, nyy, nyn, rim, lid, nuj, nyo, nzi, ann, ory, ojb-script_latin, ojb-script_syllabics, oku, bsc, bdu, orm, ury, oss, ote, otq, stn, sig, kfx, bfz, sey, pao, pau, pce, plw, pmf, pag, pap, prf, pab, pbi, pbc, pad, ata, pez, peg, pcm, pis, pny, pir, pjt, poy, pps, pls, poi, poh-dialect_eastern, poh-dialect_western, prt, pui, pan, tsz, suv, lme, quy, qvc, quz, qve, qub, qvh, qwh, qvw, quf, qvm, qul, qvn, qxn, qxh, qvs, quh, qxo, qxr, qvo, qvz, qxl, quw, kjb, kek, rah, rjs, rai, lje, rnl, rkt, rap, yea, raw, rej, rel, ril, iri, rgu, rhg, rmc-script_latin, rmc-script_cyrillic, rmo, rmy-script_latin, rmy-script_cyrillic, ron, rol, cla, rng, rug, run, lsm, spy, sck, saj, sch, sml, xsb, sbl, saq, sbd, smo, rav, sxn, sag, sbp, xsu, srm, sas, apb, sgw, tvw, lip, slu, snw, sea, sza, seh, crs, ksb, shn, sho, mcd, cbt, xsr, shk, shp, sna, cjs, jiv, snp, sya, sid, snn, sri, srx, sil, sld, akp, xog, som, bmu, khq, ses, mnx, srn, sxb, suc, tgo, suk, sun, suz, sgj, sus, swh, swe, syl, dyi, myk, spp, tap, tby, tna, shi, klw, tgl, tbk, tgj, blt, tbg, omw, tgk, tdj, tbc, tlj, tly, ttq-script_tifinagh, taj, taq, tpm, tgp, tnn, tac, rif-script_latin, rif-script_arabic, tat, tav, twb, tbl, kps, twe, ttc, kdh, tes, tex, tee, tpp, tpt, stp, tfr, twu, ter, tew, tha, nod, thl, tem, adx, bod, khg, tca, tir, txq, tik, dgr, tob, tmf, tng, tlb, ood, tpi, jic, lbw, txa, tom, toh, tnt, sda, tcs, toc, tos, neb, trn, trs, trc, tri, cof, tkr, kdl, cas, tso, tuo, iou, tmc, tuf, tuk-script_latin, tuk-script_arabic, bov, tue, kcg, tzh-dialect_bachajón, tzh-dialect_tenejapa, tzo-dialect_chenalhó, tzo-dialect_chamula, tzj-dialect_western, tzj-dialect_eastern, aoz, udm, udu, ukr, ppk, ubu, urk, ura, urt, urd-script_devanagari, urd-script_arabic, urd-script_latin, upv, usp, uig-script_arabic, uig-script_cyrillic, uzb-script_cyrillic, vag, bav, vid, vie, vif, vun, vut, prk, wwa, rro, bao, waw, lgl, wlx, cou, hub, gvc, mfi, wap, wba, war, way, guc, cym, kvw, tnp, hto, huu, wal-script_latin, wal-script_ethiopic, wlo, noa, wob, kao, xer, yad, yka, sah, yba, yli, nlk, yal, yam, yat, jmd, tao, yaa, ame, guu, yao, yre, yva, ybb, pib, byr, pil, ycn, ess, yuz, atb, zne, zaq, zpo, zad, zpc, zca, zpg, zai, zpl, zam, zaw, zpm, zac, zao, ztq, zar, zpt, zpi, zas, zaa, zpz, zab, zpu, zae, zty, zav, zza, zyb, ziw, zos, gnd. Default to English (eng).
--device {cpu,gpu} Type of processor unit for the audiobook conversion. If not specified: check first if gpu available, if not cpu is selected.
--custom_model CUSTOM_MODEL
Path to the custom model (.zip file containing ['config.json', 'vocab.json', 'model.pth', 'ref.wav']). Required if using a custom model.
--temperature TEMPERATURE
Temperature for the model. Default to 0.65. Higher temperatures lead to more creative outputs.
--length_penalty LENGTH_PENALTY
A length penalty applied to the autoregressive decoder. Default to 1.0. Not applied to custom models.
--repetition_penalty REPETITION_PENALTY
A penalty that prevents the autoregressive decoder from repeating itself. Default to 2.5
--top_k TOP_K Top-k sampling. Lower values mean more likely outputs and increased audio generation speed. Default to 50
--top_p TOP_P Top-p sampling. Lower values mean more likely outputs and increased audio generation speed. Default to 0.8
--speed SPEED Speed factor for the speech generation. Default to 1.0
--enable_text_splitting
Enable splitting text into sentences. Default to False.
--fine_tuned FINE_TUNED
Name of the fine tuned model. Optional, uses the standard model according to the TTS engine and language.
--version Show the version of the script and exit
Example usage:
Windows:
:
ebook2audiobook.cmd -- --ebook 'path_to_ebook'
Graphic Interface:
ebook2audiobook.cmd
Linux/Mac:
:
./ebook2audiobook.sh -- --ebook 'path_to_ebook'
Graphic Interface:
./ebook2audiobook.sh
يمكنك أيضًا استخدام Docker لتشغيل محول الكتب الإلكترونية إلى كتب صوتية. يضمن هذا الأسلوب التوافق بين البيئات المختلفة ويبسّط عملية الإعداد.
لتشغيل حاوية Docker وبدء واجهة Gradio، استخدم الأمر التالي:
-تشغيل باستخدام المعالج المركزي (CPU) فقط.
docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py
-تشغيل باستخدام تسريع GPU (لبطاقات الرسومات Nvida فقط).
docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py
سيبدأ هذا الأمر واجهة Gradio على المنفذ 7860 (localhost:7860).
- للحصول على المزيد من الخيارات مثل تشغيل Docker في وضع معين أو جعل رابط Gradio عامًا، أضف معلمة
help--
بعدapp.py
في أمر تشغيل Docker.
سيكون لجميع ملفات ebook2audiobook الدليل الأساسي في المسار /home/user/app/
كمثال:
tmp
= /home/user/app/tmp
audiobooks
= /home/user/app/audiobooks
لأول مرة، قم بسحب أحدث إصدار من Docker باستخدام الأمر:
docker pull athomasson2/ebook2audiobook
- قبل تشغيل هذا، يجب عليك إنشاء مجلد باسم "input-folder" في الدليل الحالي، والذي سيتم ربطه. هذا هو المكان الذي يمكنك فيه وضع ملفات الإدخال ليتمكن Docker من رؤيتها.
mkdir input-folder && mkdir Audiobooks
- في الأمر أدناه، استبدل YOUR_INPUT_FILE.TXT باسم ملف الإدخال الخاص بك.
docker run -it --rm \
-v $(pwd)/input-folder:/home/user/app/input_folder \
-v $(pwd)/audiobooks:/home/user/app/audiobooks \
--platform linux/amd64 \
athomasson2/ebook2audiobook \
python app.py --headless --ebook /input_folder/YOUR_INPUT_FILE.TXT
-
وتلك هي الخطوات!
-
سيتم العثور على الكتب الصوتية الناتجة في مجلد "Audiobook" الذي سيكون موجودًا أيضًا في الدليل المحلي الذي قمت بتشغيل أمر Docker فيه.
للحصول على أمر المساعدة للمعلمات (الأوامر) الأخرى التي يحتوي عليها هذا البرنامج، يمكنك تشغيل هذا الأمر
docker run -it --rm \
--platform linux/amd64 \
athomasson2/ebook2audiobook \
python app.py --help
وسيقوم ذلك بإخراج هذا أوامر المساعدة
يستخدم هذا المشروع Docker Compose لتشغيله محليًا. يمكنك تمكين أو تعطيل دعم GPU من خلال تعيين gpu-enabled*
أو gpu-disabled*
في ملف docker-compose.yml
.
-
استنساخ المستودع (إذا لم تكن قد قمت بذلك بالفعل):
git clone https://github.com/DrewThomasson/ebook2audiobook.git cd ebook2audiobook
-
تفعيل دعم GPU (مُعطل افتراضيًا) لتفعيل دعم GPU، قم بتعديل ملف
docker-compose.yml
وغيّرgpu-disabled*
إلىgpu-enabled*
-
بدء الخدمة:
docker-compose up -d
-
الوصول إلى الخدمة: ستكون الخدمة متاحة على الرابط http://localhost:7860.
لا تملك الأجهزة اللازمة لتشغيله أو ترغب في استئجار وحدة معالجة رسومات (GPU)؟
عرض تجريبي على Huggingface Space
(كن حذرًا، حيث سينتهي وقت الجلسة إذا لم تقم بالتفاعل مع Google Colab لفترة من الوقت.) Google Colab مجاني
يمكنك تخصيص نموذج XTTS الخاص بك بسهولة باستخدام هذا المستودع. xtts-finetune-webui
إذا كنت ترغب في استئجار وحدة معالجة رسومات (GPU) بسهولة، يمكنك أيضًا استنساخ هذه المساحة على Huggingface. xtts-finetune-webui-space
يمكنك أيضًا استخدام المساحة لتقليل الضوضاء في بيانات التدريب بسهولة. denoise-huggingface-space
للعثور على مجموعة نماذج TTS المعدلة بدقة، يمكنك زيارة هذا الرابط
لإنشاء نموذج XTTS مخصص، سيكون من الضروري أيضًا توفير مقطع صوتي مرجعي للصوت:
صوت يوم ممطر
Magic.Tree.House.45.Osborne.Mary.Pope.-.A.Crazy.Day.With.Cobras.mp4
صوت ديفيد أتينبورو (David Attenborough)
david_atten_alice_text.mp4
.epub
,.pdf
,.mobi
,.txt
,.html
,.rtf
,.chm
,.lit
,.pdb
,.fb2
,.odt
,.cbr
,.cbz
,.prc
,.lrf
,.pml
,.snb
,.cbc
,.rb
,.tcr
- أفضل النتائج:
.epub
أو.mobi
للكشف التلقائي للفصول.
- "إنه بطيء!" - عند استخدام وحدة المعالجة المركزية فقط، يكون الأداء بطيئًا جدًا، ولا يمكن تحسين السرعة إلا من خلال استخدام وحدة معالجة رسومات (GPU) من نوع NVIDIA. مناقشة حول هذا لتحقيق توليد متعدد اللغات بسرعة أكبر، أنصحك بمشروعي الآخر الذي يستخدم piper-tts بدلاً من ذلك (على الرغم من أنه لا يحتوي على استنساخ صوتي بدون تدريب مسبق، والأصوات تكون بجودة سيري، إلا أنه أسرع بكثير على الـ CPU).
- "أواجه مشاكل في التبعيات" - فقط استخدم الـ Docker، فهو معزول بالكامل ويحتوي على وضع غير مرئي (headless). أضف معلمة
h-
بعدapp.py
في أمر تشغيل الـ Docker للحصول على مزيد من المعلومات. - "أواجه مشكلة في الصوت المقتطع!" - من فضلك أنشئ مشكلة (issue) في هذا الشأن، فأنا لا أتكلم كل اللغات وأحتاج إلى نصائح من كل شخص لتحسين وظيفة تقسيم الجمل في لغات أخرى. 😊
- أي مساعدة من الأشخاص الذين يتحدثون أي من اللغات المدعومة للمساعدة في طرق تقسيم الجمل بشكل صحيح ستكون مفيدة.
- إمكانية إنشاء أدلة README لعدة لغات (لأن اللغة الوحيدة التي أعرفها هي الإنجليزية 😔)
-
Coqui TTS: Coqui TTS GitHub
-
Calibre: Calibre Website
-
FFmpeg: FFmpeg Website
يمكنك مشاهدة الكود هنا.