使用pythons lxml库纠正xpath语法，以解析来自任意嵌套html标签的所有文本

如何解决使用pythons lxml库纠正xpath语法，以解析来自任意嵌套html标签的所有文本

| 我在python中使用lxml创建了xpath语法

htmlPage.xpath(\"/html/body//a/text()\")

它让我在所需的某些html范围内获得所有<a>-tags。现在我遇到了<a>-tag可能看起来像这样：

<a>This is a sentence with some <italic>italic text</italic>-formatting I want to parse.</a>

xpath向我返回了一个列表，其中包含一个比我期望的还要多的元素。我检查并确认，它将上面提到的“ 1”标签分割为两个列表元素，而不是一个。代替字符串

\"This is a sentence with some italic text-formatting I want to parse.\"

我得到了两个弦

\"This is a sentence with some\" # and
\"-formatting I want to parse.\"

有办法纠正吗？

解决方法

我先得到了所有的<a>标签来解决了我的问题

results = htmlPage.xpath(\"/html/body//a\")

然后迭代返回的列表，并在列表元素上使用ѭ9

for a_tag in results:
    print a_tag.text_content() # prints bthe whol string: \"This is a sentence with some italic text-formatting I want to parse.\"