我使用PyTesseract来识别图像中的文本
PyTesseract.PyTesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
然后我使用下面的代码来识别文本
textImg = PyTesseract.image_to_string(Image.open(imgLoc+"/"+imgName))
print(textImg)
text_file = open(imgLoc+"/"+"oriText.txt", "w")
text_file.write(textImg)
text_file.close()
这是我的输入图片
有没有办法从图像中清楚地识别文本
解决方法:
您可以尝试通过缩短字符集来改进结果,并且只允许使用特定语言合法的字符(不包括数字,特殊字符等). This Answer will help.
Tesseract OCR不是最好的确定图像中的字符.您可以尝试稍微处理图像,以改善结果. This will help
>确保图像dpi / ppi高于250,否则结果可能是
不准确的.
我通常更喜欢这个网站www.onlineocr.net进行光学字符识别,因为每次结果几乎都是完美的.您可以尝试使用自己的API进行字符识别(要求互联网连接功能正常).使用此API获得的结果远远优于tesseract OCR.所以你可以尝试一下.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。