技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Python2.7读取PDF文件的方法示例

时间：2019-09-26分类：Python作者：编程之家

本文实例讲述了Python2.7读取PDF文件的方法。分享给大家供大家参考，具体如下：

这篇文章示例代码采用的Python版本是2.7，需要下载的插件是PDFminer，下载地址是http://www.unixuser.org/~euske/python/pdfminer/，地址里有安装方法，我就不再细说了，需要说明的是Python2只能使用PDFminer，python3不能使用，python3可以使用PDFminer3K，下载地址为https://pypi.python.org/pypi/pdfminer3k/。两种插件使用上大体相似，这里我以Python2为例，使用PDFminer插件。代码如下：

#!/usr/bin/env python
#-*- coding:utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import pdfpageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import pdfpageAggregator
#获取文档对象，你把algorithm.pdf换成你自己的文件名即可。
fp=open("algorithm.pdf","rb")
#创建一个与文档相关联的解释器
parser=PDFParser(fp)
#PDF文档对象
doc=PDFDocument(parser)
#链接解释器和文档对象
parser.set_document(doc)
#doc.set_paeser(parser)
#初始化文档
#doc.initialize("")
#创建PDF资源管理器
resource=PDFResourceManager()
#参数分析器
laparam=LAParams()
#创建一个聚合器
device=pdfpageAggregator(resource,laparams=laparam)
#创建PDF页面解释器
interpreter=pdfpageInterpreter(resource,device)
#使用文档对象得到页面集合
for page in pdfpage.create_pages(doc):
  #使用页面解释器来读取
  interpreter.process_page(page)
  #使用聚合器来获取内容
  layout=device.get_result()
  for out in layout:
    if hasattr(out,"get_text"):
      print out.get_text()

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python文件与目录操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：简单谈谈Python中的json与pickle 下一篇：Python实现发送QQ邮件的封装

相关推荐

空气阻力对乒乓球运动轨迹的影响

在前一篇博客中我们介绍了加侧旋的乒乓球弧圈技术的模拟，本文我们关注的是高吊弧圈和削球弧线这两种轨迹原理，并且引入了空气阻力对乒乓球运动轨迹的影响。通过对空气阻力和马格努斯力的模拟，我们可以看到不同的弧线曲线。对于乒乓球爱好者而言，可以通过这种模拟的结果，来制定比赛中有可能用到的策略，比如低长弧圈球、

作者：DECHIN 时间：2024-09-25

解决python报错：ModuleNotFoundError: No module named '_sysconfigdata_x86_64_conda_linux_gnu'

在近期conda的版本更新中，有可能会删除路径下的_sysconfigdata_x86_64_conda_linux_gnu模块相关备份文件，而在其他的一些软件的运行过程中有可能依赖于这个备份文件，这就会导致运行过程报错模块无法找到的问题。最终我们通过重新复制备份这个文件解决了该问题。

作者：DECHIN 时间：2024-09-25

python3之lambda表达式

本文主要展示了一些lambda表达式的使用示例，通过这些示例，我们可以了解到lambda表达式的常用语法以及使用的场景。在一般情况下，其最大的意义还是简化了python中函数的定义方式，在可读性上远不如def所定义的函数。

作者：DECHIN 时间：2024-09-25

使用jax加速Hamming Distance的计算

本文通过对比Jax和Numpy计算Normalized Hamming Distance的过程来对比了Jax所实现的Numpy的GPU版本所带来的加速效果。实际上在维度比较小的时候，Numpy还是有非常轻量级的优势，此时GPU的加速效果并没有很好的体现出来。但是在规模较大的输入场景下，GPU的并行加

作者：DECHIN 时间：2024-09-25

用CUDA写出比Numpy更快的规约求和函数

我们知道GPU加速在可并行化程度比较高的算法中，能够发挥出比较大的作用，展示出明显的加速效果，而对于一些线程之间存在依赖这样的场景就不一定能够起到很大的加速作用。CUDA官方针对此类问题，提供了atomic的内置函数解决方案，包含有求和、求最大值等常用函数。而这些函数的特点就在于，线程与线程之间需要

作者：DECHIN 时间：2024-09-25

超过Numpy的速度有多难？试试Numba的GPU加速

Numpy这个库在Python编程中非常的常用，不仅在性能上补足了Python语言的一些固有缺陷，还具有无与伦比的强大生态。但是即使都是使用Python，Numpy也未必就达到了性能的巅峰，对于我们自己日常中使用到的一些计算的场景，针对性的使用CUDA的功能来进行GPU的优化，是可以达到比Numpy

作者：DECHIN 时间：2024-09-25

使用autopep8自动规范化python3代码

本文主要通过介绍两个python中常用的编码规范格式化工具：autopep8和black来讲解python编程中一些快速处理编程规范问题的方法，同时也说明了这些软件的局限性。编程规范也是人为制定的，事实上在实际项目中，也不是所有的编程规范都需要满足，这就需要项目的组织者或者领导者有自己的基本判断。结

作者：DECHIN 时间：2024-09-25

乒乓球之弧圈理论

本文通过对马格努斯力的模拟，来理解乒乓球的弧圈原理。并且在这个理论基础之上对比了几种场景下的乒乓球轨迹，比如乒乓球的运动速度，或者日常所说的撞击对乒乓球轨迹的影响。还有乒乓球的角速度，也就是日常我们所说的摩擦对乒乓球轨迹的影响。还有一个在乒乓球界堪称变革的小球改大球对乒乓球这项运动可能带来的影响。由

作者：DECHIN 时间：2024-09-25

在pyqt5中展示pyecharts生成的图像

本文通过一个实际的散点图案例，展示了如何使用pyqt5嵌套一个pyecharts图层的方法，通过这个技巧，可以在pyqt5的框架中也实现精美的数据可视化的功能模块。

作者：DECHIN 时间：2024-09-25

python并行计算之mpi4py的安装与基本使用

在这篇文章中，我们并没有介绍非常多的MPI的应用，其实在普通的并行或者分布式任务中，掌握了各个进程的任务处理过程以及进程间的通信方法就足够了。总体来说，MPI是一个非常通用也非常高效的并行计算软件。有了这些专业的并行化任务调度软件，我们就可以专注于专业任务的代码和算法上，而不需要过多的去关注并行任务

作者：DECHIN 时间：2024-09-25

小编推荐

苹果市值2025年有望达4万亿美元