如何解决使用Python 2.7的lxml iterparse函数的字符串将文件作为参数绕过
我正在使用lxml.tree函数iterparse()遍历xml树。
这对于输入文件可以正常工作
xml_source = "formatted_html_diff.xml"
context = ET.iterparse(xml_source,events=("start",))
event,root = context.next()
但是,我想使用文件中包含相同信息的字符串。
我尝试使用
context = ET.iterparse(StringIO(result),))
但这会导致以下错误:
Traceback (most recent call last):
File "c:/Users/pag/Documents/12_raw_handle/remove_from_xhtmlv02.py",line 96,in <module>
event,root = context.next()
File "src\lxml\iterparse.pxi",line 209,in lxml.etree.iterparse.__next__
TypeError: reading file objects must return bytes objects
谢谢。
解决方法
使用BytesIO
代替StringIO
。以下代码适用于Python 2.7和Python 3:
from lxml import etree
from io import BytesIO
xml = """
<root>
<a/>
<b/>
</root>"""
context = etree.iterparse(BytesIO(xml.encode("UTF-8")),events=("start",))
print(next(context))
print(next(context))
print(next(context))
输出:
('start',<Element root at 0x315dc10>)
('start',<Element a at 0x315dbc0>)
('start',<Element b at 0x315db98>)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。