生成字幕 #1658

Jin-W-FS · 2024-09-28T12:30:27Z

生成与音频同步的字幕：

TTS_infer_pack/TTS.py 生成与音频对应的字幕信息
api_v2.py /tts 接口可返回一JSON结构，打包音频(转为base64)和字幕
通过with_srt_format参数控制是否生成字幕和字幕的格式（目前只实现了JSON list），默认关闭，不影响其他模块

另：ref_audio_path参数可接受形如base64:xxxxxx的字符串作为base64编码的音频，免去上传音频文件这一步。

生成与音频同步的字幕并返回： - TTS_infer_pack/TTS.py 生成与音频对应的字幕信息 - api_v2.py /tts 接口可用JSON同时返回生成的音频(转为base64)和字幕 - 通过参数控制是否生成字幕，默认关闭，不影响其他模块

ChasonJiang · 2024-10-01T05:27:28Z

api_v2.py


    check_res = check_params(req)
    if check_res is not None:
        return check_res

    if streaming_mode or return_fragment:
        req["return_fragment"] = True
-
+
+    if streaming_mode: with_srt_format = "" # streaming not support srt


流式不支持字幕时最好log输出一下，提醒用户。

ChasonJiang · 2024-10-01T05:39:02Z

GPT_SoVITS/TTS_infer_pack/TTS.py

-
+            texts = sum(texts, [])
+
+        # 按顺序计算每段语音的起止时间，并与文字一一对应，用于生成字幕


后处理计算音频时间和恢复顺序这边，不需要返回字幕的话不去计算应该好一点，就是用单独的逻辑去控制是否需要计算。

jearton · 2024-10-09T05:18:55Z

合并了吗

flymorn · 2024-10-10T07:20:45Z

能否直接返回字级别的时间戳呢？
因为 @Jin-W-FS 目前的代码返回的srt是根据句子的切割，如果切割的一段字数很多，返回的list就失去了意义。
比如：
当地时间10月7日，俄罗斯总统新闻秘书佩斯科夫表示，俄罗斯前驻美国大使安东诺夫结束任期回国，不意味着俄罗斯与美国的外交关系降级。俄方将适时任命新的驻美大使。
返回的srt是：
"srt": [
[
0.0,
14.5,
"当地时间10月7日，俄罗斯总统新闻秘书佩斯科夫表示，俄罗斯前驻美国大使安东诺夫结束任期回国，不意味着俄罗斯与美国的外交关系降级。"
],
[
14.5,
18.04,
"俄方将适时任命新的驻美大使。"
]
]

一个片段里太多字数了，还是不能上屏。
最好返回字级别时间戳，后续自己处理。感谢

jearton · 2024-10-24T18:28:14Z

我也需要字级别的时间戳，如何实现呢？

hjj-lmx · 2024-11-22T11:02:48Z

大佬，在这个的基础上能不能添加自定义停顿呀，例如：“测试[2秒]生成语音”，在“测试”后面停顿两秒，然后在“生成语音”

hjj-lmx · 2024-11-27T10:25:33Z

生成与音频同步的字幕：

TTS_infer_pack/TTS.py 生成与音频对应的字幕信息

api_v2.py /tts 接口可返回一JSON结构，打包音频(转为base64)和字幕

通过with_srt_format参数控制是否生成字幕和字幕的格式（目前只实现了JSON list），默认关闭，不影响其他模块

另：ref_audio_path参数可接受形如base64:xxxxxx的字符串作为base64编码的音频，免去上传音频文件这一步。

请教一下，为什么我根据你返回的时间点，生成.ass的字幕文件，然后把这个字幕通过ffmepg合成到视频中，字幕和视频的时间点对应不上啊

Jin-W-FS added 2 commits September 28, 2024 20:09

api_v2.py: support ref_audio input as base64 string

0a17694

ChasonJiang reviewed Oct 1, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

生成字幕 #1658

生成字幕 #1658

Jin-W-FS commented Sep 28, 2024

ChasonJiang Oct 1, 2024

ChasonJiang Oct 1, 2024

jearton commented Oct 9, 2024

flymorn commented Oct 10, 2024

jearton commented Oct 24, 2024

hjj-lmx commented Nov 22, 2024

hjj-lmx commented Nov 27, 2024


		texts = sum(texts, [])

		# 按顺序计算每段语音的起止时间，并与文字一一对应，用于生成字幕

生成字幕 #1658

Are you sure you want to change the base?

生成字幕 #1658

Conversation

Jin-W-FS commented Sep 28, 2024

ChasonJiang Oct 1, 2024

Choose a reason for hiding this comment

ChasonJiang Oct 1, 2024

Choose a reason for hiding this comment

jearton commented Oct 9, 2024

flymorn commented Oct 10, 2024

jearton commented Oct 24, 2024

hjj-lmx commented Nov 22, 2024

hjj-lmx commented Nov 27, 2024