如何解决使用pythons lxml库纠正xpath语法,以解析来自任意嵌套html标签的所有文本
| 我在python中使用lxml创建了xpath语法htmlPage.xpath(\"/html/body//a/text()\")
它让我在所需的某些html范围内获得所有<a>
-tags。现在我遇到了<a>
-tag可能看起来像这样:
<a>This is a sentence with some <italic>italic text</italic>-formatting I want to parse.</a>
xpath向我返回了一个列表,其中包含一个比我期望的还要多的元素。我检查并确认,它将上面提到的“ 1”标签分割为两个列表元素,而不是一个。代替字符串
\"This is a sentence with some italic text-formatting I want to parse.\"
我得到了两个弦
\"This is a sentence with some\" # and
\"-formatting I want to parse.\"
有办法纠正吗?
解决方法
我先得到了所有的
<a>
标签来解决了我的问题
results = htmlPage.xpath(\"/html/body//a\")
然后迭代返回的列表,并在列表元素上使用ѭ9
for a_tag in results:
print a_tag.text_content() # prints bthe whol string: \"This is a sentence with some italic text-formatting I want to parse.\"
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。