微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 PyMuPDF 的 Python 文本注释

如何解决使用 PyMuPDF 的 Python 文本注释

我正在使用 PyMuPDF 在 . pdf 文档使用:

import fitz 
import re 

def data_(text): 
        
        annotation_text = r"(amet)"
        for line in text:
            if re.search(annotation_text,line,re.IGnorECASE): 
                search = re.search(annotation_text,re.IGnorECASE) 
                yield search.group(1) 

    def includeannotation(path_included): 
        
        document = fitz.open(path_included) 
        
        
        for page in document: 
            page.wrap_contents() 
            obs = data_(page.getText("text") .split('\n'))
            #print (obs)
            for data in obs: 
                catchs = page.searchFor(data) 
                [page.addRedactAnnot(catchs,fontsize=11,fill = (0,0)) for catch in catchs] 
            page.apply_redactions() 
        doc.save('annotation.pdf') 
        print("end - created") 

path_included = '/content/document.pdf'

save_document=includeannotation(path_included)

源 .pdf 文档包含以下文本:

enter image description here

通过应用上面提到的代码,我可以包含文本“amet”的注释,获得以下结果:

enter image description here

并且结果似乎符合预期,但是您可以看到该库已包含黑色注释(用于“amet”)也删除了后面行中的单词,但未包含黑色注释。事实上,这看起来像是一个重新设计的问题。

我怎样才能避免这样的问题?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。