如何解决如何使用 Apache Tika Server 从 PDF 中提取内嵌图像并将它们保存为文件?
有没有办法做到这一点?我在对 http://localhost:9998/tika
"Content-Type","application/pdf"
"X-Tika-OCRLanguage","eng"
"X-Tika-PDFextractInlineImages","true"
"X-Tika-PDFOcrStrategy","no_ocr"
响应会包含图像吗?如果是这样,我该如何保存它们?
使用 Apache Tika 服务器 1.26
解决方法
响应将是字符串而不是图像 标志:PDFOcrStrategy 告诉 tika 使用 ocr(tesseract)或仅尝试从没有 ocr 的文档中提取文本 - 对原生 pdf 很有用
标志:PDFextractInlineImages 告诉 tika 忽略/包含嵌入的图像
所以当你有扫描的pdf时,你应该使用
"X-Tika-PDFextractInlineImages","true"
"X-Tika-PDFOcrStrategy","ocr_only"
对于原生 pdf
"X-Tika-PDFextractInlineImages","false"
"X-Tika-PDFOcrStrategy","no_ocr"
但在这两种情况下,tika 都会返回文本
如果您想从 pdf 文档 IMO 中获取图像,您应该使用 pdf box 或类似的库。 tika 的目标是从输入中返回文本
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。