微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在表示 \n 但 Word 无法识别为 \n 的 docx 中替换这种不可打印的字符类型?

如何解决如何在表示 \n 但 Word 无法识别为 \n 的 docx 中替换这种不可打印的字符类型?

我正在解析各种 .docx 文档,但我的代码中遇到“\n”时分割段落的部分在遇到这个奇怪的符号(黄色圆圈)时添加一个新行:

enter image description here

有人能告诉我这是什么不可打印的字符,我怎样才能用普通的“ ”空格替换它?

(我不能只是复制和粘贴它并使用 replace() 函数,因为当我这样做时,char 会被解释为 \n,但是正如您所看到的,如果 Word 真的将该字符解释为输入,它会添加奇怪的输入符号的倒置 P 字符(当我单击 Word 中的“显示不可打印字符”按钮时),但事实并非如此。希望我自己解释一下,非常感谢您的帮助!) .

解决方法

我相信你会发现这个字符是一个换行符。在 python-docx 中,strparagraph.text 值表示带有 "\n" 的换行符。您可以使用以下方法将它们映射到空格 (" "):

paragraph_text = paragraph.text.replace("\n"," ")

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。