如何在自定义数据集上微调 tesseract？

我知道这个问题可能不是一个新问题，但是训练/微调tesseract是最难的部分之一，我找不到任何可以正确解释它的文章。所有的教程或文档都没有人对其进行完整的解释，通过它们提出的问题多于答案。

所以我真的希望我能在几个方面得到一些澄清，如果可能的话，用外行的话。

这些是一些复杂的简历，训练它们需要 tesseract 理解是否从左到右提取文本，特别是在两列简历中，它需要先解析一列文本，然后再解析另一列文本。

现在，我如何为此目的微调 tesseract，因为它在尝试时没有正确解析它？

有人说我需要创建一个包含图像中每个字符坐标的框文件，一些文档说你需要一个图像文件和一个包含文本的同名文本文件？这里哪个是正确的格式？这比我这样的问题有优势。

现在，如果我需要获取每个字符的坐标，我可以使用像 google vision api 这样的在线 ocr 平台来生成此类数据，因为手动注释它们绝非易事。即使 google vision api 返回文本和每个字符的边界坐标，它也可能不是 tesseract 寻找的坐标？

另外，tesseract 是我问题的答案还是我需要构建一个单独的 ocr 模型（任何 github 链接或我可以使用的预训练模型）？

请为我的问题提供任何形式的帮助，数周以来我一直在到处寻找答案，但没有成功。请帮帮我。

编辑：期待更详细的答案。