如何解决pdfQuery 结果数据的面向对象数据结构是什么?
我目前正在用 python 构建一个程序来抓取和解析 pdf,希望比目前可用的更优雅。
python中pdfquery输出的数据结构层次是: (希望这是有道理的)
PDFDocument
pdfpage[1]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
pdfpage[2]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
....
pdfpage[i]
PDFElement[1]
PDFElement[2]
...
PDFElement[i]
我想创建一个 OO python 数据结构,它设置了上面的层次结构。将 pdfElement 类对象 [s] 作为 pdfpage 类对象 [s] 的属性嵌入,这些对象作为 pdfDocument 元素的属性嵌入。
这必须在创建类时迭代完成。我想知道这是否是构建数据的最佳方式,还是我最好做其他事情?如果我有几百页,每页可能有 30-50 个元素,我也有兴趣知道它可能有多“昂贵”。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。