Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

修复按英文句号切分bug和英文前端处理问题 #1796

Open
wants to merge 11 commits into
base: main
Choose a base branch
from

Conversation

Cosmo-klara
Copy link

@Cosmo-klara Cosmo-klara commented Nov 20, 2024

修复按英文句号切分bug和英文前端处理问题

解决 issue #1690 #1725

修复按英文句号切分方式

改动位置:

  • ..\GPT_SoVITS\TTS_infer_pack\text_segmentation_method.py
  • ..\GPT_SoVITS\TTS_infer_pack\TextPreprocessor.py

总结:解决了按英文句号切分会异常切分小数点及序号项的问题。详细的说明参见 #1700

英文前端处理的问题修复

详细内容 #1725

改动位置:

  • 新增 ..\GPT_SoVITS\text\en_normalization\expend.py
  • ..\GPT_SoVITS\text\english.py

改动说明:

  • from g2p_en.expand import normalize_numbers 以此导入的处理函数为基准新增 ..\GPT_SoVITS\text\en_normalization\expend.py 来处理切句后的输入,导入为 from text.en_normalization.expend import normalize

    新增代码中有较为详细的注释介绍其功能

    相较于原 g2p_en 新增的功能如下:

    • 序号识别并转化为序数词
    • 数字时间英文 12 时制转化 (eg. 4:00、13:30)
    • 后缀计量单位识别与转化 (m|km|km/h|ft|L|tbsp|tsp|h|min|s|°C|°F)
    • £/$ 的前后缀识别转化, 修正读法
    • 小数识别与转化, 修正读法
    • 分数识别与转化
    • 添加 "-" \ "%" 的处理转化

    有待实现的部分 ( 但不确定是否有需求 )

    • 电话号码的转化: 目前会当作正常数字转化
    • 数学计算式子的转化: 如何区分存不同含义的相同符号
    • 。。。
  • 略微调整 ..\GPT_SoVITS\text\english.py 中内容,将 text_normalize 函数中的部分处理移入新增的 en_normalization\expend.py 中。

从 DDL 中抽出身来了终于hh,已经同步了期间的更新,应该没有冲突

修改按英文句号.切分方式
删除punctuation中的“ ”,以便于按英文句号切分
修改代码风格和zh处理保持一致
删除了英文预处理的过滤器
添加英文序号转化
	new file:   GPT_SoVITS/text/en_normalization/expend.py
	modified:   GPT_SoVITS/text/english.py
	modified:   GPT_SoVITS/text/english.py
去除不必要的过滤器让前端处理部分得以在正常(非fast)infer下正常工作
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant