PyMuPDF 使用文档索引系统提取文本

如何解决PyMuPDF 使用文档索引系统提取文本

我正在寻找一种使用 PyMUPDF 使用文档索引系统提取文本的方法。许多文档都有一个索引系统，我希望能够从文档中提取和保存每个项目（索引号下的文本）。示例文档：-

显然我可以像这样抓取文本：

doc = fitz.open(filename)
text = ''
for page in doc:
    text += page.getText()

我尝试了 get_toc()，但无法使其正常工作，可能是因为某些文档没有目录。

我正在考虑使用正则表达式来查找这样的数字

import re
x = re.search("\d\d?\.\d",text)

我想我可以得到索引号的坐标并保存两者之间的坐标。这将是最好的方法还是有更好的本地方法来使用 PyMUPDF 来做到这一点？非常感谢

edit - 似乎可以使用 Page.get_text('words') 或 Page.get_textBox(react) 拉出文本矩形，如此处讨论的 https://github.com/pymupdf/PyMuPDF-Utilities/tree/master/textbox-extraction。但是这些示例都使用 PDF 注释来构建 rect 对象。我想做的是找到索引号的位置，例如30.1 并使用该位置和下面索引号的位置来构建矩形对象。

edit2 - 所以我发现 Page.search_for() 返回一个具有坐标的矩形对象。所以也许我可以传递索引号，例如30.1 到这里并取回坐标。