如何解决Tika Server 无法读取 PDF 中的嵌入图像
Hi Tika Server 已使用 tesseract 进行设置,但仍无法读取 PDF 中的嵌入图像。尝试使用两个可用的标题,但没有帮助。
这仅适用于 PDF 文件。而 OCR 适用于其他文件类型/图像。
在这里使用定制的 docker 容器。奇怪的是,部署在另一台机器上的同一个容器可以工作。 有没有低级问题的可能?
更新: 比较日志后,似乎 OCP 正在将自定义 HTTP 标头小写,例如 X-Tika...、Postman-Token 到 x-tika...、postman-token 等。谁能帮助我解决可能的问题?
解决方法
似乎 OCP 将自定义标头小写是导致此问题的原因。 TikaServer 1.25 不支持不区分大小写的 X-Tika 标头。
我已在 Tika Server 1.26 中修复它。 参考:https://tika.apache.org/1.26/index.html https://issues.apache.org/jira/browse/TIKA-3320
,检查 https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.html
pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`
将pdf扫描的文档转成图片然后发送到tesseract
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。