我目前正在使用tesseract OCR为
Android开发项目.我希望通过添加字典来微调给用户的结果.根据
http://code.google.com/p/tesseract-ocr/wiki/FAQ,最好的办法是
Replace tessdata/eng.user-words with your own word list,in the same
format – UTF8 text,one word per line.
但是在tessdata文件夹中没有eng.user-words文件,我假设如果我只是用一个文本文件与我的字典,它永远不会被使用..
有谁有类似的经验,知道该怎么办?任何建议将是一个很大的帮助.
解决方法
如果你使用tesseract 3(我假设你是).
你必须重建你的eng.trainddata文件
我打算用完全替换word-dawg文件来尝试获得更好的结果(即 – 我检测的字总是相同的).
你必须重建你的eng.trainddata文件
我打算用完全替换word-dawg文件来尝试获得更好的结果(即 – 我检测的字总是相同的).
当您编译tesseract时,您将需要在训练目录中的combine_tessdata和wordlist2dawg可执行文件.
>打开所有东西(我做了这个只是为了备份我的eng.word-dawg,你还需要unicharset)
./combine_tessdata -u eng.traineddata
>创建一个wordlist文本文件(wordlistfile)
>创建一个eng.word-dawg
./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset
>替换word-dawg文件
./combine_tessdata -o eng.traineddata eng.word-dawg
应该是
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。