如何解决无需Python导入即可从原始HTML代码中删除HTML标签
我的课程项目要求我从HTML代码中提取纯文本,而不使用任何导入库。 因此,我尝试过的操作在下面,但是在处理大型html文件时,它确实非常慢。
def cleanTags(inStr):
while "<" in inStr and ">" in inStr:
a = inStr.find('<')
b = inStr.find('>')
inStr = inStr.replace(inStr[a:b+1],'')
print("deleted")
return inStr
解决方法
在这种情况下,最好使用Regex:
import re
def cleanTags(inStr):
clean = re.compile('<.*?>')
cleantxt = re.sub(clean,'"',inStr)
return cleantxt
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。