我试图将pdf文件的文本内容读入Perl变量.从其他SO问题/答案我得到我需要使用CAM :: PDF的感觉.这是我的代码:
#!/usr/bin/perl -w use CAM::PDF; my $pdf = CAM::PDF->new('1950-01-01.pdf'); print $pdf->numPages()," pages\n\n"; my $text = $pdf->getPageText(1); print $text,"\n";
我尝试在this pdf file上运行它.Perl没有报告错误.第一个印刷声明有效;它打印“2页”,这是本文档中正确的页数.
下一个print语句不会返回任何可读的内容.以下是Emacs中输出的内容:
2 pages ^A^B^C^D^E^C^F^D^G^H ^D^A^K^L^C^M^D^N^C^M^O^D^P^C^Q^Q^C ^D^R^K^M^O^D ^A^B^C^D^E ^F^G^G^H^E ^K^L ^M^N^E^O^P^E^O^Q^R^S^E .... more lines with similar codes ....
有什么我可以做的工作吗?我不太了解pdf文件,但我认为,因为我可以使用Acrobat轻松复制和粘贴PDF文件中的文本,它必须被识别为文本而不是图像,所以我希望这意味着我可以提取它与Perl.
任何指导都将非常感谢.
解决方法
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。