微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

从pdf生成的表中提取数据Tabula

如何解决从pdf生成的表中提取数据Tabula

我正在尝试转换 pdf 文件并将其保存到 Django 模型字段。 到目前为止,我能够将文件转换为 CSV 数据框, 我能够读取标题和数据。 但是,我遇到了一个小问题,因为该表有 1 行包含大量数据,并且标题已过时,因此它们会随时间变化。

这是表格的 pdf 截图:

enter image description here

这是我目前所做的:

import tabula
f = tabula.read_pdf('roster.pdf',pages='1')
table = f[0].replace('\r'," ",regex=True)
print(table)

--> 1Jul\rThu  ...   31Jul\rSat
0  RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC ...  ...      OFF DOH
1                                  DH:16:50 BH:06:50  ...  00:00 00:00
[2 rows x 31 columns]

row_iter = table.iterrows()
for index,row in row_iter:
    print(row[0])
--> RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH
DH:16:50 BH:06:50

print(list(table.columns))

--> ['01Jul\rThu','02Jul\rFri','03Jul\rSat','04Jul\rSun','05Jul\rMon','06Jul\rTue','07Jul\rWed','08Jul\rThu','09Jul\rFri','10Jul\rSat','11Jul\rSun','12Jul\rMon','13Jul\rTue','14Jul\rWed','15Jul\rThu','16Jul\rFri','17Jul\rSat','18Jul\rSun','19Jul\rMon','20Jul\rTue','21Jul\rWed','22Jul\rThu','23Jul\rFri','24Jul\rSat','25Jul\rSun','26Jul\rMon','27Jul\rTue','28Jul\rWed','29Jul\rThu','30Jul\rFri','31Jul\rSat']

我想要做的就是将列与其对应的数据进行匹配以将其用作 JSON。

{"date": "01Jul","info":"RPT: 04:30 8868 DOH 05:52 LHR 12:42 (77W) PIC 8869 LHR 14:38 DOH 21:20 DH (77W) REST DOH DH:16:50 BH:06:50"}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?