如何解决从PDF每页的表格中提取数据,然后将所有数据一起添加到一个数据框中?
我有一个包含几页的pdf,我想从每一页中提取数据并将它们全部连接到一个数据框中。我设法挖掘了Stack和其他资源来创建以下代码,该代码成功地从每个页面中提取并打印了表格作为数据框。但是,下一步是将这些单独的数据帧逐行连接(这样,它是一个数据帧而不是几个单独的数据帧)。
import pdfplumber
import pandas as pd
pdf_file = "df.pdf"
tables=[]
with pdfplumber.open(pdf_file) as pdf:
pages = pdf.pages
for i,pg in enumerate(pages):
tbl = pages[i].extract_table()
df = pd.DataFrame(tbl)
print(f'{df}')
我一直在试图找出如何在此循环中连接每个数据框,而不是仅仅将它们打印出来,并且希望获得任何帮助。谢谢!
解决方法
弄清楚如何做到这一点。快到了,只需要浏览一下Stack即可找出如何添加for循环。谢谢。
import pdfplumber
import pandas as pd
#Create df from table on first page to act as the first df:
pdf_file = "data.pdf"
pdf = pdfplumber.open(pdf_file)
pages = pdf.pages
tbl = pages[0].extract_table()
original_df = pd.DataFrame(tbl,columns=["category",0])
#Append data from remaining tables/pages:
tables=[]
with pdfplumber.open(pdf_file) as pdf:
pages = pdf.pages
for i,pg in enumerate(pages):
tbl = pages[i].extract_table()
df = pd.DataFrame(tbl,i+1])
original_df = original_df.merge(df,on='category')
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。