从pdf生成的表中提取数据Tabula

如何解决从pdf生成的表中提取数据Tabula

我正在尝试转换 pdf 文件并将其保存到 Django 模型字段。到目前为止，我能够将文件转换为 CSV 数据框，我能够读取标题和数据。但是，我遇到了一个小问题，因为该表有 1 行包含大量数据，并且标题已过时，因此它们会随时间变化。

这是表格的 pdf 截图：

这是我目前所做的：

import tabula
f = tabula.read_pdf('roster.pdf',pages='1')
table = f[0].replace('\r'," ",regex=True)
print(table)

--> 1Jul\rThu  ...   31Jul\rSat
0  RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC ...  ...      OFF DOH
1                                  DH:16:50 BH:06:50  ...  00:00 00:00
[2 rows x 31 columns]

row_iter = table.iterrows()
for index,row in row_iter:
    print(row[0])
--> RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH
DH:16:50 BH:06:50

print(list(table.columns))

--> ['01Jul\rThu','02Jul\rFri','03Jul\rSat','04Jul\rSun','05Jul\rMon','06Jul\rTue','07Jul\rWed','08Jul\rThu','09Jul\rFri','10Jul\rSat','11Jul\rSun','12Jul\rMon','13Jul\rTue','14Jul\rWed','15Jul\rThu','16Jul\rFri','17Jul\rSat','18Jul\rSun','19Jul\rMon','20Jul\rTue','21Jul\rWed','22Jul\rThu','23Jul\rFri','24Jul\rSat','25Jul\rSun','26Jul\rMon','27Jul\rTue','28Jul\rWed','29Jul\rThu','30Jul\rFri','31Jul\rSat']

我想要做的就是将列与其对应的数据进行匹配以将其用作 JSON。

{"date": "01Jul","info":"RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH DH:16:50 BH:06:50"}

从pdf生成的表中提取数据Tabula

如何解决从pdf生成的表中提取数据Tabula

相关推荐