微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 iText7 阅读 PDF 文本时,某些文本出现乱码

如何解决使用 iText7 阅读 PDF 文本时,某些文本出现乱码

我从 C# 中的 nuget 读取了带有 itext7 7.1.14 和 itext7.font-asian 7.1.14 的 PDF 文本,但某些文本(例如日期)出现乱码,如下图所示。有什么办法可以解决这个问题吗?

enter image description here

var req = WebRequest.Create("https://www.release.tdnet.info/inbs/140120210208458149.pdf");
req.Timeout = 5000;

using (var res = req.GetResponse())
using (var st = res.GetResponseStream())
using (var pdfDoc = new PdfDocument(new PdfReader(st)))
{
    var text = "";

    //PDFのページ分繰り返す
    for (var page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
    {
        //PDFから文字列を抽出
        text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page)) + "\n\n";
    }
}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。