如何解决如何从 Android 中的印地语 PDF 文件中提取文本
我正在尝试阅读印地语 PDF 的内容。我已使用 itext7 库阅读 PDF 文件。
它对英语 PDF 工作正常,并且还可以获取确切的字符,但是当我尝试使用任何印地语(本地)语言 PDF 时,值的格式不可读。
我正在获取文本的无法识别的格式
d d d daaaah h eeh h ee aaaa
这里是阅读PDF页面的示例代码。
val pdfReader = PdfReader("pdfPath")
PdfDocument(pdfReader).use { doc ->
pdfContent = PdfTextExtractor.getTextFromPage(doc.getPage(1))
}
pdfReader.close()
是否需要将语言参数传递给 itext7 库才能获得准确的内容?
解决方法
示例 PDF 中印地语字形的字体对象明确声明这些字形对应于用于文本提取的拉丁语 Unicode 字符:
因此,文本提取器为那些印地语字形提取拉丁语 Unicode 字符是完全正确的。
即使查看嵌入字体程序(超出常规文本提取)也没有改善这种情况,嵌入字体程序也映射到拉丁语 Unicode 字符,只是不同的:
因此,对于这样的 PDF,您应该尝试 OCR 而不是 文本提取。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。