微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用Python进行PDF解析-提取格式化和纯文本

如何解决使用Python进行PDF解析-提取格式化和纯文本

您还可以看一下PDFMiner(或者对于旧版本的Python,请参阅PDFMinerPDFMiner)。

PDFminer中感兴趣的一个特殊功能是,您可以控制在提取文本部分时如何重新组合文本部分。您可以通过指定行,单词,字符等之间的间距来执行此操作。因此,也许可以通过对此进行调整来实现所需的功能(取决于文档的可变性)。PDFminer还可以为您提供文本在页面中的位置,它可以按对象ID和其他内容提取数据。因此,挖掘PDFminer并发挥创造力吧!

但是您的问题确实不是一个容易解决的问题,因为在PDF中,文本不是连续的,而是由许多绝对位于页面中的小字符组成的。PDF的重点是保持布局完整。它不是面向内容的,而是面向呈现的。

解决方法

我正在寻找一个PDF库,它将允许我从PDF文档中提取文本。我看过PyPDF,它可以很好地从PDF文档中提取文本。这样做的问题是,如果文档中有表,则表中的文本将与文档其余文本一起在线提取。这可能会引起问题,因为它会生成无用的文本部分,看起来有些乱码(例如,许多数字混在一起)。

我想从PDF文档中提取文本,但 不包括 任何表格和特殊格式。那里有图书馆吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。