如何解决从xml文件中提取两个标签而不是一个
我的代码运行正常。
它提取维基百科文章的所有标题。
import bz2
import xml.sax
import xml.sax.handler
class Handler(xml.sax.handler.ContentHandler):
def __init__(self):
self.__buffer = None
def characters(self,data):
if self.__buffer is None:
return
self.__buffer.append(data)
def startElement(self,name,attrs):
if name == 'title':
self.__buffer = []
def endElement(self,name):
if self.__buffer is None:
return
print(repr(name),repr(''.join(self.__buffer)))
self.__buffer = None
with bz2.open('/home/mrwiki-20210701-pages-meta-current.xml.bz2','r') as stream:
xml.sax.parse(stream,Handler())
我正在尝试提取“文本”字段的 bytes 参数以及“标题”。 这行不通,因为我只需要“字节”而不是实际文本。
if name == 'title':
self.__buffer = []
if name == 'text':
self.__buffer = []
这是一个示例记录...
myfile = """
<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/expo
rt-0.10/ http://www.mediawiki.org/xml/export-0.10.xsd" version="0.10" xml:lang="mr">
<siteinfo>
<sitename>xyz</sitename>
<dbname>mrwiki</dbname>
<base>https://xx.wikipedia.org/wiki/xxxxxxxxxx</base>
<generator>MediaWiki 1.37.0-wmf.11</generator>
<case>first-letter</case>
<namespaces>
<namespace key="-2" case="first-letter">मिडिया</namespace>
<namespace key="2303" case="case-sensitive">Gadget definition talk</namespace>
</namespaces>
</siteinfo>
<page>
<title>my_title </title>
<ns>0</ns>
<id>1</id>
<revision>
<id>1857942</id>
<parentid>1629326</parentid>
<timestamp>2020-12-26T11:34:51Z</timestamp>
<contributor>
<username>andesh9822</username>
<id>66586</id>
</contributor>
<model>wikitext</model>
<format>text/x-wiki</format>
<text bytes="5823" xml:space="preserve"> some text
</text>
<sha1>11z9foqntwoukfd4xfjnfhpc9y33r25</sha1>
</revision>
</page>
"""
当前:my_title
预期:my_title 5823
解决方法
以下是使用 ElementTree 和 iterparse()
的方法:
import bz2
from xml.etree import ElementTree as ET
with bz2.open("mrwiki-20210701-pages-meta-current.xml.bz2","r") as stream:
for _,elem in ET.iterparse(stream):
if elem.tag == "{http://www.mediawiki.org/xml/export-0.10/}title":
print(elem.text)
if elem.tag == "{http://www.mediawiki.org/xml/export-0.10/}text":
print(elem.get("bytes"))
elem.clear()
iterparse()
构建了一个将使用大量内存的树结构。 elem.clear()
通过在元素处理后从元素中删除所有内容来弥补这一点。
XML 文件中的元素绑定到 http://www.mediawiki.org/xml/export-0.10/
命名空间。必须考虑到这一点。
这里是执行相同操作的基于 SAX 的代码。
import bz2
import xml.sax
import xml.sax.handler
class Handler(xml.sax.handler.ContentHandler):
def characters(self,data):
self.__buffer = data
def startElement(self,name,attrs):
if name == "title":
self.__buffer = ""
if name == "text":
self.__buffer2 = attrs.getValue("bytes")
def endElement(self,name):
if name == "title":
print(self.__buffer)
if name == "text":
print(self.__buffer2)
with bz2.open("mrwiki-20210701-pages-meta-current.xml.bz2","r") as stream:
xml.sax.parse(stream,Handler())
SAX 解析器消耗很少的内存,因为它只在事件发生时报告它们。
默认情况下,xml.sax.handler.feature_namespaces
为 false,这意味着解析器不会报告与命名空间相关的事件。就好像没有命名空间一样。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。