使用Python 2.7的lxml iterparse函数的字符串将文件作为参数绕过

如何解决使用Python 2.7的lxml iterparse函数的字符串将文件作为参数绕过

我正在使用lxml.tree函数iterparse（）遍历xml树。

这对于输入文件可以正常工作

xml_source = "formatted_html_diff.xml"
context = ET.iterparse(xml_source,events=("start",))
event,root = context.next()

但是，我想使用文件中包含相同信息的字符串。

我尝试使用

context = ET.iterparse(StringIO(result),))

但这会导致以下错误：

Traceback (most recent call last):
  File "c:/Users/pag/Documents/12_raw_handle/remove_from_xhtmlv02.py",line 96,in <module>
    event,root = context.next()
  File "src\lxml\iterparse.pxi",line 209,in lxml.etree.iterparse.__next__
TypeError: reading file objects must return bytes objects

有人知道我该如何解决这个错误？

谢谢。

解决方法

使用BytesIO代替StringIO。以下代码适用于Python 2.7和Python 3：

from lxml import etree 
from io import BytesIO
 
xml = """
<root>
 <a/>
 <b/>
</root>"""
 
context = etree.iterparse(BytesIO(xml.encode("UTF-8")),events=("start",))
 
print(next(context))
print(next(context))
print(next(context))

输出：

('start',<Element root at 0x315dc10>)
('start',<Element a at 0x315dbc0>)
('start',<Element b at 0x315db98>)