微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

蒂卡没有正确阅读pdf

如何解决蒂卡没有正确阅读pdf

我正在使用 Tika 将 pdf 文件转换为 html,但输出不符合预期。该文档有 8 页长,只有 2 页正在被读取,但它们在输出中被重复。例如它输出第 2、2、2、3、3、3、3、2 页。元数据也输出

pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 1791

这里会发生什么?相关文件可在此处公开获取Phantom_3_Standard_Quick_Start_Guide_en_201509.pdf

解决方法

之所以会出现这种令人惊讶的文本提取结果,是因为第1、2、3、8页的内容流非常相似,每个都绘制了所有四个页面的内容,只是坐标的水平偏移不同,一些剪辑路径和次要细节。

基本上,这些页面中的每一个都绘制了以下所有图像,但通过将它们移出页面区域或使用剪辑路径来隐藏不同的、不需要的部分:

screenshot A

第 4-7 页的内容流也以同样的方式非常相似,基本上:

screenshot B

特别是那四组中的文本没有区别。 Tika 显然忽略了它提取的文本是否可见。因此,您会在这四组中获得相同的提取文本。


我使用了 ShowVicinity,一个基于 PDFBox 的小型临时工具,使 PDF 页面的整个附近区域都可见。

,

该 PDF 设置了“所有者密码”。没有密码就无法从中提取文本。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。