微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Apache Tika 解析器字符限制异常

如何解决Apache Tika 解析器字符限制异常

我使用的是 Apache Tike 解析器 v1.24。我们有大尺寸的 PDF 文件。解析这些时,我们得到以下错误

Exception: Your document contained more than 100000 characters,and so your requested limit has been reached. To receive the full text of the document,increase your limit. (Text up to the limit is however available).]

我尝试将 bodyContentHandler 的参数设置为 -1。但是没有用。

提前致谢

解决方法

请使用pdfbox来分割每页的pdf文件——看类Splitter

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。