微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python3安装pdfminer并使用

1.python3不同与2版本不能使用pdfminer

pip install pdfminer3k

2.使用pdfminer解析相应文档并保存到相应的文件夹中

# encoding : udf-8

"""
解析pdf文本保存到txt文件"""
from pdfminer.converter import pdfpageAggregator
from pdfminer.layout import LAParams,LTTextBoxHorizontal
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed,PDFResourceManager,pdfpageInterpreter
from pdfminer.pdfparser import PDFDocument,PDFParser

path = E:\\force.pdf


def parse():
    fp = open(path,rb)   # 以二进制读模式打开
    praser = PDFParser(fp)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    praser.set_document(doc)
    doc.set_parser(praser)

    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()

    # 检测文档是否提供txt转换,不提供就忽略
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = pdfpageAggregator(rsrcmgr,laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = pdfpageInterpreter(rsrcmgr,device)

        # 循环遍历列表,每次处理一个page的内容
        for page in doc.get_pages():  # doc.get_pages() 获取page列表
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            for x in layout:
                if isinstance(x,LTTextBoxHorizontal):
                    with open(rE:\\pdf\1.txt,a) as f:
                        results = x.get_text()
                        print(results)
                        f.write(results + \n)

if __name__ == __main__:
    parse()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐