微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Tesseract我如何训练我的数据集

如何解决Tesseract我如何训练我的数据集

我有一个包含大量gt.txt和tiff文件的数据集,大约有1000个文件,我尝试使用tesstrain项目并运行以下命令make training MODEL_NAME = cmc7 TESSDATA = path / to / tessdata_best 该命令运行成功,但是当我尝试使用训练有素的数据时,该命令无法正常工作。我的问题是为tesseract训练我的数据集的正确形式是什么?谢谢。

解决方法

要使用图像训练数据集,除了图像之外,我还使用2种文件类型:

  • 具有预期输出的 gt.txt 文件
  • 从图像中生成的
  • 盒文件,其中包含我要训练模型的更改

我将所有3个文件放入 tesstrain / data / my-model-ground-truth 中,并从tesstrain文件夹中运行以下命令:

make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best

那是假设您要在 tessdata_best 存储库的 eng.traineddata 之上进行训练: https://github.com/tesseract-ocr/tessdata_best

这会在 tesstrain / data 文件夹内生成my-model.traineddata

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。