微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

无需Python导入即可从原始HTML代码中删除HTML标签

如何解决无需Python导入即可从原始HTML代码中删除HTML标签

我的课程项目要求我从HTML代码提取纯文本,而不使用任何导入库。 因此,我尝试过的操作在下面,但是在处理大型html文件时,它确实非常慢。

def cleanTags(inStr):
while "<" in inStr and ">" in inStr:
    a = inStr.find('<')
    b = inStr.find('>')
    inStr = inStr.replace(inStr[a:b+1],'')
    print("deleted")
return inStr

解决方法

在这种情况下,最好使用Regex:

import re

def cleanTags(inStr):
  clean = re.compile('<.*?>')
  cleantxt = re.sub(clean,'"',inStr)
  return cleantxt

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。