微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用Python 2.7的lxml iterparse函数的字符串将文件作为参数绕过

如何解决使用Python 2.7的lxml iterparse函数的字符串将文件作为参数绕过

我正在使用lxml.tree函数iterparse()遍历xml树。

这对于输入文件可以正常工作

xml_source = "formatted_html_diff.xml"
context = ET.iterparse(xml_source,events=("start",))
event,root = context.next()

但是,我想使用文件中包含相同信息的字符串。

我尝试使用

context = ET.iterparse(StringIO(result),))

但这会导致以下错误

Traceback (most recent call last):
  File "c:/Users/pag/Documents/12_raw_handle/remove_from_xhtmlv02.py",line 96,in <module>
    event,root = context.next()
  File "src\lxml\iterparse.pxi",line 209,in lxml.etree.iterparse.__next__
TypeError: reading file objects must return bytes objects

有人知道我该如何解决这个错误

谢谢。

解决方法

使用BytesIO代替StringIO。以下代码适用于Python 2.7和Python 3:

from lxml import etree 
from io import BytesIO
 
xml = """
<root>
 <a/>
 <b/>
</root>"""
 
context = etree.iterparse(BytesIO(xml.encode("UTF-8")),events=("start",))
 
print(next(context))
print(next(context))
print(next(context))

输出:

('start',<Element root at 0x315dc10>)
('start',<Element a at 0x315dbc0>)
('start',<Element b at 0x315db98>)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。