微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

为什么不pytesseract承认这个图像中的任何文字?

如何解决为什么不pytesseract承认这个图像中的任何文字?

我有这样的图像input image在其上我试图应用文本检测和OCR, 然而,即使经过预处理(二进制阈值等)PyTesseract不返回任何输出。文本检测的目的是提高OCR输出,我不是太在意获得边界框。

这是我的代码如下:

image = cv2.imread('image.jpg')

grey = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)

ret,thresh1 = cv2.threshold(grey,127,255,cv2.THRESH_BINARY)

image = PyTesseract.image_to_data(thresh1,output_type=Output.DICT)
image = cv2.bitwise_not(image)

检查的结果是没有的,以无意义的输出,反正是有改善此?

解决方法

试试这个代码:

import pytesseract
import cv2
image = cv2.imread('ccl6t.png')
pytesseract.pytesseract.tesseract_cmd = r'k:\Tesseract\tesseract.exe' #need change!
grey = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
ret,thresh1 = cv2.threshold(grey,127,255,cv2.THRESH_BINARY_INV)
cv2.imwrite('tresh.png',thresh1)
words = pytesseract.image_to_data(thresh1,lang='eng',config='--psm 3 --oem 1 ')
print(str(words))

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。