如何解决使用 iText7 阅读 PDF 文本时,某些文本出现乱码
我从 C# 中的 nuget 读取了带有 itext7 7.1.14 和 itext7.font-asian 7.1.14 的 PDF 文本,但某些文本(例如日期)出现乱码,如下图所示。有什么办法可以解决这个问题吗?
var req = WebRequest.Create("https://www.release.tdnet.info/inbs/140120210208458149.pdf");
req.Timeout = 5000;
using (var res = req.GetResponse())
using (var st = res.GetResponseStream())
using (var pdfDoc = new PdfDocument(new PdfReader(st)))
{
var text = "";
//PDFのページ分繰り返す
for (var page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
//PDFから文字列を抽出
text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page)) + "\n\n";
}
}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。