如何解决Java:在检测 PDF、替代方案/解决方案中的表格时错误的 Tabula 猜测?
在我的 java 应用程序中,我使用 Tabula PDF(来自 Technology.Tabula)从 PDF 中提取表格数据。 Tabula 首先将 PDF 视为一个坐标空间,其中每个字符在页面上都有一个 X 和 Y 坐标。
然后它可以通过使用 NurminemDetectionAlgorithm 来“猜测”它认为 PDF 中的表格存在的区域。本质上,它为您提供矩形左上角的 X/Y 坐标,并提供矩形的宽度和高度。期望这个矩形覆盖整个表格。
Tabula 然后过滤掉所有字符,只过滤那些 X/Y 坐标在矩形区域内的字符。
在大多数情况下,这对我来说在 PDF 上工作得很好,但是在少数情况下,我发现它给出的最初猜测是错误的,最终提取了空白的 "" 字符。例如,我在 Adobe PDF 阅读器上检查了猜测的 X/Y 位置,页面甚至不够大,无法让 X/Y 位置落在上面(不确定它是否移动到第二页,但无论哪种方式都是错)
对于使用 Tabula(或任何替代方法)的人,您如何解决这些“错误的猜测”?有没有办法尝试更好的第二次猜测?您是否应用了一些替代检测算法?等等?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。