微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

PyMuPDF 使用文档索引系统提取文本

如何解决PyMuPDF 使用文档索引系统提取文本

我正在寻找一种使用 PyMUPDF 使用文档索引系统提取文本的方法。许多文档都有一个索引系统,我希望能够从文档中提取和保存每个项目(索引号下的文本)。示例文档:-

enter image description here

显然我可以像这样抓取文本:

doc = fitz.open(filename)
text = ''
for page in doc:
    text += page.getText()

我尝试了 get_toc(),但无法使其正常工作,可能是因为某些文档没有目录。

我正在考虑使用正则表达式来查找这样的数字

import re
x = re.search("\d\d?\.\d",text)

我想我可以得到索引号的坐标并保存两者之间的坐标。这将是最好的方法还是有更好的本地方法来使用 PyMUPDF 来做到这一点?非常感谢

edit - 似乎可以使用 Page.get_text('words')Page.get_textBox(react) 拉出文本矩形,如此处讨论的 https://github.com/pymupdf/PyMuPDF-Utilities/tree/master/textbox-extraction。但是这些示例都使用 PDF 注释来构建 rect 对象。我想做的是找到索引号的位置,例如30.1 并使用该位置和下面索引号的位置来构建矩形对象。

edit2 - 所以我发现 Page.search_for() 返回一个具有坐标的矩形对象。所以也许我可以传递索引号,例如30.1 到这里并取回坐标。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。