微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

改进表格中的 Pytesseract 结果表格 OCR

如何解决改进表格中的 Pytesseract 结果表格 OCR

我目前正在研究这个韩国数据集,但在正确获取值方面遇到了一些问题。一些问题是图片有点不稳定,语言是韩语,以及垂直表格的存在。

Image of Table Im Working With

我把它裁剪成灰度,所以我总是可以裁剪出来。

目前的问题是性能不是很好。认设置让我一头雾水。虽然我发现psm 4是最好的,但它看起来仍然不是很好,似乎tesseract只是中途突破。

Image of Current Output

我想知道是否有人对如何改进 ocr 有任何建议。我正在考虑使用 table-ocr 之类的东西拆分列和行,但我不确定,因为它是垂直的。到目前为止,我尝试更改 psm 配置值、尝试各种编辑、放大,但它们似乎都比我现在的结果更糟。

img = Image.open(f"{link}---{page}") #opening image based on classification system
area = (300,235,750,335) #cropping it to just be that sliver of data
cropped_img = img.crop(area).convert("LA") #convert to greyscale
text = (PyTesseract.image_to_string(cropped_img,lang='kor',config='--psm 4')) #PyTesseract using korean trained data
print(text) #seeing output

谢谢!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。