pip install pdfminer3k
# encoding : udf-8 """ 解析pdf文本保存到txt文件中 """ from pdfminer.converter import pdfpageAggregator from pdfminer.layout import LAParams,LTTextBoxHorizontal from pdfminer.pdfinterp import PDFTextExtractionNotAllowed,PDFResourceManager,pdfpageInterpreter from pdfminer.pdfparser import PDFDocument,PDFParser path = ‘E:\\force.pdf‘ def parse(): fp = open(path,‘rb‘) # 以二进制读模式打开 praser = PDFParser(fp) # 创建一个PDF文档 doc = PDFDocument() # 连接分析器 与文档对象 praser.set_document(doc) doc.set_parser(praser) # 提供初始化密码 # 如果没有密码 就创建一个空的字符串 doc.initialize() # 检测文档是否提供txt转换,不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: # 创建PDf 资源管理器 来管理共享资源 rsrcmgr = PDFResourceManager() # 创建一个PDF设备对象 laparams = LAParams() device = pdfpageAggregator(rsrcmgr,laparams=laparams) # 创建一个PDF解释器对象 interpreter = pdfpageInterpreter(rsrcmgr,device) # 循环遍历列表,每次处理一个page的内容 for page in doc.get_pages(): # doc.get_pages() 获取page列表 interpreter.process_page(page) # 接受该页面的LTPage对象 layout = device.get_result() for x in layout: if isinstance(x,LTTextBoxHorizontal): with open(r‘E:\\pdf\1.txt‘,‘a‘) as f: results = x.get_text() print(results) f.write(results + ‘\n‘) if __name__ == ‘__main__‘: parse()
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。