如何解决如何设置pytesseract来解决验证码的字母数字和5个长度
大家好,我在python 3.8中使用pytesseract和tesseract-ocr-w32-setup-v5.0.0-alpha和pytesseract,我做了这段代码来尝试识别5个字母数字字符:
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'
text = pytesseract.image_to_string(r'imagenes/captcha.JPG',lang='spa',config='psm 10')
if len(text)>5:
text = text[0:5]
print(text)
问题在于它无法正常工作。就这张图片而言
它返回swQgy。我读了一些设置:例如,可以通过将两个配置变量load_system_dawg和load_freq_dawg都设置为false来禁用它们,以免出现字典,但是我不知道该怎么做。另外,我不确定我能否说出验证码的长度,并避免混淆线路干扰。预先感谢。
更新:
我有一个更新,我可以解决在使用cv2进行图像处理之前的困惑。现在我的问题是字母z,它与数字2混淆。这是我的新代码:
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
image = cv2.imread('captcha.jpg')
image = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
image = cv2.medianBlur(image,3)
text = pytesseract.image_to_string(image,config='--oem 1 --psm 6')
if len(text)>5:
text = text[0:5]
print(text)
是否可以调好得多?我是pytesseract的新手。这是我的新验证码和结果:
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。