微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

通过python类型从pdf提取文本

如何解决通过python类型从pdf提取文本

enter image description here

大家好, 我有此pdf文件样本,我有30多个文件,每个文件包含10页。 如您所见,每个段落都包含三种类型的文本字体和颜色, 我想要将pdf文件转换为cvs文件或xls文件,其中每种类型都使用单独的coulmn。此外,我要排除黄色的高亮文本。 类似的东西:

enter image description here

我应该使用python libries是什么?任何意见或建议都会有所帮助 谢谢

解决方法

那里有几个图书馆。我之前曾与https://pypi.org/project/pdfminer/合作。对于您的用例,它可能会很好地工作。

pdf2txt.py my_text.pdf
,

要处理pdf文件,您可以使用PyPdf2

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。