微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

android – Tesseract的自定义词典

我目前正在使用tesseract OCR为 Android开发项目.我希望通过添加字典来微调给用户的结果.根据 http://code.google.com/p/tesseract-ocr/wiki/FAQ,最好的办法是

Replace tessdata/eng.user-words with your own word list,in the same
format – UTF8 text,one word per line.

但是在tessdata文件夹中没有eng.user-words文件,我假设如果我只是用一个文本文件与我的字典,它永远不会被使用..

有谁有类似的经验,知道该怎么办?任何建议将是一个很大的帮助.

解决方法

如果你使用tesseract 3(我假设你是).
你必须重建你的eng.trainddata文件
我打算用完全替换word-dawg文件来尝试获得更好的结果(即 – 我检测的字总是相同的).

当您编译tesseract时,您将需要在训练目录中的combine_tessdata和wordlist2dawg可执行文件.

>打开所有东西(我做了这个只是为了备份我的eng.word-dawg,你还需要unicharset)

./combine_tessdata -u eng.traineddata
>创建一个wordlist文本文件(wordlistfile)
>创建一个eng.word-dawg

./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup / .unicharset
>替换word-dawg文件

./combine_tessdata -o eng.traineddata eng.word-dawg

应该是

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


这篇“android轻量级无侵入式管理数据库自动升级组件怎么实现”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定...
今天小编给大家分享一下Android实现自定义圆形进度条的常用方法有哪些的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文...
这篇文章主要讲解了“Android如何解决字符对齐问题”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Android...
这篇文章主要介绍“Android岛屿数量算法怎么使用”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Android岛屿数量算...
本篇内容主要讲解“Android如何开发MQTT协议的模型及通信”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Andro...
本文小编为大家详细介绍“Android数据压缩的方法是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Android数据压缩的方法是什么”文章能帮助大家解决疑惑...
这篇“Android怎么使用Intent传大数据”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅...
本文小编为大家详细介绍“Android事件冲突怎么解决悬浮窗拖拽问题”,内容详细,步骤清晰,细节处理妥当,希望这篇“Android事件冲突怎么解决悬浮窗拖拽问题”文...
这篇文章主要介绍了Android拼接如何实现动态对象的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇Android拼接如何实现动态对象文...
今天小编给大家分享一下Android全面屏适配怎么实现的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下...