改进表格中的 Pytesseract 结果表格 OCR

如何解决改进表格中的 Pytesseract 结果表格 OCR

我目前正在研究这个韩国数据集，但在正确获取值方面遇到了一些问题。一些问题是图片有点不稳定，语言是韩语，以及垂直表格的存在。

我把它裁剪成灰度，所以我总是可以裁剪出来。

目前的问题是性能不是很好。默认设置让我一头雾水。虽然我发现psm 4是最好的，但它看起来仍然不是很好，似乎tesseract只是中途突破。

我想知道是否有人对如何改进 ocr 有任何建议。我正在考虑使用 table-ocr 之类的东西拆分列和行，但我不确定，因为它是垂直的。到目前为止，我尝试更改 psm 配置值、尝试各种编辑、放大，但它们似乎都比我现在的结果更糟。

img = Image.open(f"{link}---{page}") #opening image based on classification system
area = (300,235,750,335) #cropping it to just be that sliver of data
cropped_img = img.crop(area).convert("LA") #convert to greyscale
text = (PyTesseract.image_to_string(cropped_img,lang='kor',config='--psm 4')) #PyTesseract using korean trained data
print(text) #seeing output

谢谢！