微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Tabula-py read_pdf_with_template() 方法

如何解决Tabula-py read_pdf_with_template() 方法

我正在尝试将文档的特定部分作为表格阅读。它的结构为表格,但单元格、行或列之间没有分隔线

我成功地将 read_pdf() 方法areacolumn 参数一起使用。我可以准确指定表格的开始和结束位置以及列的分隔位置。

但我的 pdf 在每一页上都有多个不同大小的表格,没有明确的标记来识别它们,我必须使用这些参数。

我在 Github 存储库问题 here 中发现了 read_pdf_with_template() 方法,并在 documentationpull request 和 {{3} }.

但没有提到如何构造 teamplate.json 以及我可以使用哪些参数或它们的含义。

我尝试将 area 坐标插入 x1,y1,x2,y2,在方法参数和 height,width 参数中传递带有表大小的列列表。

但它拾取了 pdf 的顶部中心部分,该部分不等于我在反向计算所有内容时插入的任何坐标。

这是我正在尝试阅读的页面(我删除了一些敏感数据) example notebook

这里是代码片段

import tabula

tables = tabula.read_pdf_with_template(input_path = "test.pdf",template_path = "template.json",columns=[195,310,380])

print(tables[0])
[
    {
        "page": 1,"extraction_method": "stream","x1": 225,"x2": 35,"y1": 375,"y2": 565,"width": 525,"height": 400
    }
]

解决方法

我只是个笨蛋。

模板不是您手动生成的。它们应该由上面提到的 tabula 应用程序生成here

只需从 official website 下载 tabula。启动应用程序后,它非常简单。手动单击并拖动每个页面上的每个表格,然后单击顶部的下载模板按钮。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?