微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Java:在检测 PDF、替代方案/解决方案中的表格时错误的 Tabula 猜测?

如何解决Java:在检测 PDF、替代方案/解决方案中的表格时错误的 Tabula 猜测?

在我的 java 应用程序中,我使用 Tabula PDF(来自 Technology.Tabula)从 PDF 中提取表格数据。 Tabula 首先将 PDF 视为一个坐标空间,其中每个字符在页面上都有一个 X 和 Y 坐标。

然后它可以通过使用 NurminemDetectionAlgorithm 来“猜测”它认为 PDF 中的表格存在的区域。本质上,它为您提供矩形左上角的 X/Y 坐标,并提供矩形的宽度和高度。期望这个矩形覆盖整个表格。

Tabula 然后过滤掉所有字符,只过滤那些 X/Y 坐标在矩形区域内的字符。

在大多数情况下,这对我来说在 PDF 上工作得很好,但是在少数情况下,我发现它给出的最初猜测是错误的,最终提取了空白的 "" 字符。例如,我在 Adob​​e PDF 阅读器上检查了猜测的 X/Y 位置,页面甚至不够大,无法让 X/Y 位置落在上面(不确定它是否移动到第二页,但无论哪种方式都是错)

对于使用 Tabula(或任何替代方法)的人,您如何解决这些“错误的猜测”?有没有办法尝试更好的第二次猜测?您是否应用了一些替代检测算法?等等?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。