蒂卡没有正确阅读pdf

如何解决蒂卡没有正确阅读pdf

我正在使用 Tika 将 pdf 文件转换为 html，但输出不符合预期。该文档有 8 页长，只有 2 页正在被读取，但它们在输出中被重复。例如它输出第 2、2、2、3、3、3、3、2 页。元数据也输出：

pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 1791
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 5672
pdf:charsPerPage: 1791

这里会发生什么？相关文件可在此处公开获取：Phantom_3_Standard_Quick_Start_Guide_en_201509.pdf

解决方法

之所以会出现这种令人惊讶的文本提取结果，是因为第1、2、3、8页的内容流非常相似，每个都绘制了所有四个页面的内容，只是坐标的水平偏移不同，一些剪辑路径和次要细节。

基本上，这些页面中的每一个都绘制了以下所有图像，但通过将它们移出页面区域或使用剪辑路径来隐藏不同的、不需要的部分：

第 4-7 页的内容流也以同样的方式非常相似，基本上：

特别是那四组中的文本没有区别。 Tika 显然忽略了它提取的文本是否可见。因此，您会在这四组中获得相同的提取文本。

^{我使用了 ShowVicinity，一个基于 PDFBox 的小型临时工具，使 PDF 页面的整个附近区域都可见。}

该 PDF 设置了“所有者密码”。没有密码就无法从中提取文本。