微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在自定义数据集上微调 tesseract?

如何解决如何在自定义数据集上微调 tesseract?

我知道这个问题可能不是一个新问题,但是训练/微调tesseract是最难的部分之一,我找不到任何可以正确解释它的文章。所有的教程或文档都没有人对其进行完整的解释,通过它们提出的问题多于答案。

所以我真的希望我能在几个方面得到一些澄清,如果可能的话,用外行的话。

我有一些这样的简历,link1 link2 link3

这些是一些复杂的简历,训练它们需要 tesseract 理解是否从左到右提取文本,特别是在两列简历中,它需要先解析一列文本,然后再解析另一列文本。

现在,我如何为此目的微调 tesseract,因为它在尝试时没有正确解析它?

有人说我需要创建一个包含图像中每个字符坐标的框文件,一些文档说你需要一个图像文件一个包含文本的同名文本文件?这里哪个是正确的格式?这比我这样的问题有优势。

现在,如果我需要获取每个字符的坐标,我可以使用像 google vision api 这样的在线 ocr 平台来生成此类数据,因为手动注释它们绝非易事。 即使 google vision api 返回文本和每个字符的边界坐标,它也可能不是 tesseract 寻找的坐标?

另外,tesseract 是我问题的答案还是我需要构建一个单独的 ocr 模型(任何 github 链接或我可以使用的预训练模型)?

请为我的问题提供任何形式的帮助,数周以来我一直在到处寻找答案,但没有成功。请帮帮我。

编辑:期待更详细的答案。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。