如何解决提取 body 的属性,同时保留相关标签
我试图遍历 HTML 正文,以便找到所有 <h1>
标签:
Element body = docJSoup.body();
Elements mainCmp = body.select("h1");
所以,考虑到这个身体的片段:
<h1><span style='mso-bookmark:_Toc283737133'><span
style='mso-spacerun:yes'></span><span style='mso-spacerun:yes'></span><a
name="_Toc35343186"></a><a name="_Toc264704629"></a><span style='mso-bookmark:
_Toc35343186'>3<span style='mso-tab-count:1'></span>Aspetti metodologici</span></span></h1>
我会得到这个:
<span style="mso-bookmark:_Toc283737133"><span style="mso-spacerun:yes"></span><span style="mso-spacerun:yes"></span><a name="_Toc35343186"></a><a name="_Toc264704629"></a><span style="mso-bookmark:
_Toc35343186">3<span style="mso-tab-count:1"></span>Aspetti metodologici</span></span>
顺便说一下,我还想在结果中保留 <h1>
标签。
而且 <h1>
标签本身也可以有其他属性,所以我不能只将 "<h1>"
连接到结果字符串。
有没有办法使用 JSoup 方法保持它?
感谢您的见解。
解决方法
outerHtml()
将为您提供节点的标记,包括它自己的开始和结束标记。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。