如何解决从pdf生成的表中提取数据Tabula
我正在尝试转换 pdf 文件并将其保存到 Django 模型字段。 到目前为止,我能够将文件转换为 CSV 数据框, 我能够读取标题和数据。 但是,我遇到了一个小问题,因为该表有 1 行包含大量数据,并且标题已过时,因此它们会随时间变化。
这是我目前所做的:
import tabula
f = tabula.read_pdf('roster.pdf',pages='1')
table = f[0].replace('\r'," ",regex=True)
print(table)
--> 1Jul\rThu ... 31Jul\rSat
0 RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC ... ... OFF DOH
1 DH:16:50 BH:06:50 ... 00:00 00:00
[2 rows x 31 columns]
row_iter = table.iterrows()
for index,row in row_iter:
print(row[0])
--> RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH
DH:16:50 BH:06:50
print(list(table.columns))
--> ['01Jul\rThu','02Jul\rFri','03Jul\rSat','04Jul\rSun','05Jul\rMon','06Jul\rTue','07Jul\rWed','08Jul\rThu','09Jul\rFri','10Jul\rSat','11Jul\rSun','12Jul\rMon','13Jul\rTue','14Jul\rWed','15Jul\rThu','16Jul\rFri','17Jul\rSat','18Jul\rSun','19Jul\rMon','20Jul\rTue','21Jul\rWed','22Jul\rThu','23Jul\rFri','24Jul\rSat','25Jul\rSun','26Jul\rMon','27Jul\rTue','28Jul\rWed','29Jul\rThu','30Jul\rFri','31Jul\rSat']
我想要做的就是将列与其对应的数据进行匹配以将其用作 JSON。
{"date": "01Jul","info":"RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH DH:16:50 BH:06:50"}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。