微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用python PyMuPDFfitz遍历行并检查其长度,如果符合条件则添加句点

如何解决使用python PyMuPDFfitz遍历行并检查其长度,如果符合条件则添加句点

尝试遍历PyMuPDF库中页面的每一行以检查句子的长度,如果少于10个单词,那么我想添加一个句号。 伪代码为:

#loop through the lines of the PDF
#check number of words in line
#if line has less than 10 words 
#add period 

下面的真实代码

import fitz
myfile = "my.pdf"
doc  =fitz.open(myfile)
page=doc[0]
for page in doc:
    text = page.getText("text")
    print(text)

当我添加一个for循环时 for line in page:

我收到一条错误消息,指出页面不可迭代。我还有其他方法可以做到吗?

谢谢

解决方法

为了遍历页面行,您可以使用 getDisplayList:

page_display = page.getDisplayList()
dictionary_elements = page_display.getTextPage().extractDICT()
for block in dictionary_elements['blocks']:
    for line in block['lines']:
        line_text = ''
        for span in line['spans']:
             line_text += ' ' + span['text]
        print(l

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。