如何解决无边界pdf提取到json对于Python camelot库无法正常工作
谁能给我快速解答/帮助 由于我们在使用python camelot将pdf提取到json后面临一些问题,因此未提供确切的内容。提取后缺少某些内容。
解决方法
我尝试了以下代码:
import camelot
pdf_path = '/YOUR/FILEPATH.pdf'
tables = camelot.read_pdf(pdf_path,flavor='stream')
这里有两个问题:
- 标题字体无法正确读取,因此您会发现奇怪的字符,例如
(cid:71)
... - 使用
flavor='lattice'
,未检测到该表。使用flavor='stream'
,可以检测到表格,但不能正确检测到单元格。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。