微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

匹配标签的正则用于抽取纯文本

 首先放结果:

(\n|[ \t])*<([^>"‘]*|"[^"]*"|‘[^‘]*‘)*>(\n|[ \t])*

创作步骤:

  1. 最简单最基础的匹配模式:
    <[^>]*>

     

  2. 如果标签中的文本属性中含有 <> 字符怎么办呢?一开始考虑用平衡组,想了一下感觉杀鸡用牛刀,直接选用了 "[^"]*" 模式:
    <([^>"]*|"[^"]*")*>

     

  3. 同理,增加 ‘[^‘]*‘ 模式:
    <([^>"‘]*|"[^"]*"|[^]*)*>

     

  4. 按道理到了这里就可以结束了,如果想要一次性到位将多余的换行和前导后导空白也匹配上的话可以略做修饰:
    (\n|[ \t])*<([^>"‘]*|"[^"]*"|[^]*)*>(\n|[ \t])*

     

  5. 将所有匹配到的文本全部替换为空文本即可。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐