微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在使用apache tika文本解析时更改文本编码为utf-8最专门用于.txt文件

如何解决如何在使用apache tika文本解析时更改文本编码为utf-8最专门用于.txt文件

我正在使用apache tika进行文本提取。除非我尝试使用中文书写的.txt文档在中文计算机上进行测试,否则它几乎可以在所有文件类型上正常工作。我没有以utf-8编码格式保存文件。 Tika开始解析错误的字符串字符。这似乎是编码问题,我尝试设置像这样的编码类型 Metadata.add(Metadata.CONTENT_ENCODING,"UTF_8") 仍然没有运气。我已经看到了Java中的一些方法,这些方法可以将文本从一种编码类型转换为另一种编码类型,但前提是必须知道源编码类型。就我而言,我不确定客户端的编码类型,也不能强迫他使用utf-8。请帮助我! 预先感谢:)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。