微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何通过 Python 从 XML 获取文本?

如何解决如何通过 Python 从 XML 获取文本?

我正在训练语言模型。我的输入是 XML 格式的字幕。我只需要从中获取纯文本并将其保存到文本文件中,以便我可以使用它。

输入

<?xml version="1.0" encoding="utf-8"?> <document> <s id="1"> <time id="T1S" value="00:00:14,660" /> <w id="1.1">-</w> <w id="1.2">Všetko</w> <w id="1.3">v</w> <w id="1.4">poriadku</w> <w id="1.5">.</w> </s></document>

输出

- Všetko v poriadku . 

解决方法

在 XML 术语中,您需要感兴趣的 XML 元素的字符串值

这里是如何使用 XPath 在 Python 中获取根元素的字符串值:

import lxml.etree as ET


xmlstr = """
  <r status="ready">
    <line>First line.</line>
    <line>Second line,with <i>italic text</i>.</line>
  </r>
"""

root = ET.fromstring(xmlstr)
svalue = root.xpath('string(/)')
print(svalue)

上面的代码只打印文本,

    First line.
    Second line,with italic text.

按要求

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。