可以在ppocr_keys_v1.txt字典中加字吗 #14557
Replies: 2 comments 1 reply
-
是的,可以在 1. 确保字典和数据集一致当你在 2. 检查字典的格式字典文件 3. 修改配置文件在使用 PaddleOCR 进行训练时,确保在配置文件(例如 character_dict_path: "./ppocr_keys_v1.txt" 如果你没有更新配置文件,模型可能会继续使用默认字典,导致字符集与数据集不匹配。 4. 检查训练数据集确保你的训练数据集是正确的,尤其是标注文件(通常是 JSON 或 TXT 格式)。标注的字符必须完全在字典范围内,否则训练时模型会无法计算正确的损失值。 5. 避免数据预处理问题数据预处理可能也会导致训练问题:
6. 检查日志和报错信息在训练过程中,仔细查看日志输出。如果有关于字符集或数据集的问题,日志中可能会提供相关提示。 相关讨论链接根据提供的 GitHub 讨论链接(讨论 URL),可以参考类似问题的解决方法。讨论中用户提到,训练
你可以对照这些检查点逐一排查问题。 总结:在 Response generated by feifei-bot | chatgpt-4o-latest |
Beta Was this translation helpful? Give feedback.
-
我试了,在ppocr_keys_v1.txt字典文件中任意加了一个训练数据集中有的字,acc还是0;但是将字典中的某个标点符号字符改成那个字,就可以正常训练
郑宇
***@***.***
…------------------ 原始邮件 ------------------
发件人: "PaddlePaddle/PaddleOCR" ***@***.***>;
发送时间: 2025年1月17日(星期五) 上午9:48
***@***.***>;
***@***.******@***.***>;
主题: Re: [PaddlePaddle/PaddleOCR] 可以在ppocr_keys_v1.txt字典中加字吗 (Discussion #14557)
是的,可以在 ppocr_keys_v1.txt 字典中添加新的字符,但需要注意以下问题,以解决训练时 acc 始终为 0 的问题:
1. 确保字典和数据集一致
当你在 ppocr_keys_v1.txt 中添加新的字符时,确保你的训练数据集中的标注内容包含这些新的字符。同时,标注文件中的字符必须能够完全匹配字典中的字符。如果字典中缺失某些字符,模型将无法正确地进行训练,导致 acc 始终为 0。
2. 检查字典的格式
字典文件 ppocr_keys_v1.txt 中,每个字符应该占据一行,且没有多余的空格或特殊符号。如果字典文件的格式不正确,可能会导致训练过程出错。
3. 修改配置文件
在使用 PaddleOCR 进行训练时,确保在配置文件(例如 ch_PP-OCRv3_rec.yml)中正确指定了你修改后的字典路径。例如:
character_dict_path: "./ppocr_keys_v1.txt"
如果你没有更新配置文件,模型可能会继续使用默认字典,导致字符集与数据集不匹配。
4. 检查训练数据集
确保你的训练数据集是正确的,尤其是标注文件(通常是 JSON 或 TXT 格式)。标注的字符必须完全在字典范围内,否则训练时模型会无法计算正确的损失值。
5. 避免数据预处理问题
数据预处理可能也会导致训练问题:
确保你的训练数据和标注文件格式符合 PaddleOCR 的要求。
检查是否有乱码或无效标注。
6. 检查日志和报错信息
在训练过程中,仔细查看日志输出。如果有关于字符集或数据集的问题,日志中可能会提供相关提示。
相关讨论链接
根据提供的 GitHub 讨论链接(讨论 URL),可以参考类似问题的解决方法。讨论中用户提到,训练 acc 始终为 0 的常见原因包括:
数据集路径未正确配置。
标注文件字符与字典不匹配。
数据集格式不正确。
你可以对照这些检查点逐一排查问题。
总结:在 ppocr_keys_v1.txt 中添加字符后,确保修改了配置文件,并保证字典、数据集和标注文件的一致性。如果仍然无法解决问题,可进一步查看日志,或参考相关讨论链接中的解决方案。
Response generated by feifei-bot | chatgpt-4o-latest
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>
|
Beta Was this translation helpful? Give feedback.
-
加了字后,训练的acc始终为0
Beta Was this translation helpful? Give feedback.
All reactions