微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在Tika中忽略扫描的图像

如何解决如何在Tika中忽略扫描的图像

我正在尝试在tika中解析pdf文件。在一些手写的扫描文档中,tika正在解析文件并返回没有意义的垃圾文本。我正在使用here中的python tika包装器。有什么方法可以忽略包含图像的pdf。 Tesseract OCR解析器已关闭。解析文件后,它不会显示在元数据中。

解决方法

要忽略内联图像,应使用标志“ X-Tika-PDFextractInlineImages:false”

<h1>{{ blog.author.name }} says: </h1>
<h2>{{ blog.title }}</h2>
<p>
    {{ blog.content }}
</p>
<img src="{{ blog.image_path }}">

但老实说,将值设置为false仅对“本地pdf”有意义。

对于扫描的文档,此标志必须设置为true 改善流程的唯一方法是打开ocr并使用OcrStrategy:OCR_ONLY

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。