微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

PDFMiner版本差异?得到不支持的操作:寻求

如何解决PDFMiner版本差异?得到不支持的操作:寻求

我正在使用搜寻器从网站上获取一些pdf文件,然后尝试将其转换为txt,但出现此错误,得到UnsupportedOperation:搜索

我已经搜索了很多网站,只是无法帮助我解决问题。

文件“”,第51行,在解析中 praser_pdf = PDFParser(fp)

init 中的文件“ D:\ Anaconda \ lib \ site-packages \ pdfminer \ pdfparser.py”,第43行 PsstackParser。初始化(self,fp)

文件“ D:\ Anaconda \ lib \ site-packages \ pdfminer \ psparser.py”,第515行,位于初始化中 PSBaseParser。初始化(自身,fp)

初始中的文件“ D:\ Anaconda \ lib \ site-packages \ pdfminer \ psparser.py”,第169行 self.seek(0)

文件“ D:\ Anaconda \ lib \ site-packages \ pdfminer \ psparser.py”,第527行,在搜索中 PSBaseParser.seek(self,pos)

文件199中的“ D:\ Anaconda \ lib \ site-packages \ pdfminer \ psparser.py”文件 self.fp.seek(pos)

不支持的操作:寻求

这是我的代码

baseurl = "http://reportdocs.static.szse.cn/UpFiles/fxklwxhj/"

def parse(docucode):

_path = baseurl + quote(docucode) +"?random=0.3006649122149502"

request = Request(url=_path,headers=headers)  

fp = urlopen(request)

praser_pdf = PDFParser(fp)

doc = PDFDocument()

praser_pdf.set_document(doc)
doc.set_parser(praser_pdf)

doc.initialize()

代码无法正常工作,只是在praser_pdf = PDFParser(fp)中崩溃,我真的很想知道如何解决它!

非常感谢!

解决方法

这是从URL读取pdf并将其写入输出文件的示例实现。 注意:此实现适用于pdfminer:20191125,并且未包含来自URL响应的错误处理

from urllib.request import urlopen,Request
import os
pdf_url = "http://www.inkwelleditorial.com/pdfSample.pdf"
rp1 = Request(pdf_url)
fp = urlopen(rp1)
output_path = "/home/mint/Desktop/temper.html"
input_path = "/home/mint/Desktop/temper.pdf"

open(input_path,"w").close() # For making the output file as empty before going forward
with open(input_path,"wb") as f:
    f.write(fp.read())
command = "pdf2txt.py -t html -o {} {} ".format(output_path,input_path)
os.system(command)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。