Python XML-处理未关闭的令牌

我正在阅读数百个XML 文件,并使用xml.etree.ElementTree对其进行解析.

快速背景刚刚过去：
这些XML文件在某一时刻是完全有效的,但是以某种方式在历史上对其进行处理时,复制/粘贴它们的过程可能损坏了它们. (结果是一个冲洗问题/语句未关闭,如果您在意的话,请参阅我在… Python shutil copyfile – missing last few lines上进行的调查所获得的有益帮助).

无论如何回到这个问题的重点.
我仍然想读这些有效XML的前十万行左右.文件仅缺少6MB文件的最后4或5KB.但是,如前所述,该文件只是“切出”.它看起来像这样：

</Maintag>




<Maintag>
    <Change_type>NQ</Change_type>
    <Name>Atlas</Name>
    <Test>ATLS</Test>
    <Other>NYSE</Other>
    <Scheduled_E

其中(也许很明显)Scheduled_E是应该是另一个属性< .Scheduled_Event>的开头.但是文件被剪短了.再一次,在文件中的这一点之前,有几千个“好”“ Maintag”条目,我想读入它们,它们接受作为不可恢复的失败的截止条目(以及显然应该出现的所有内容).

一种简单但不完整的处理方法可能是简单地-在XML预处理之前-查找字符串< ./ Maintag>的最后一个实例.文件中的内容,然后将其后的内容(有时会损坏)替换为“ opening”标签.同样,这至少让我处理了仍然存在且有效的内容.

如果有人想帮助我解决这种字符串替换问题,请首先打开以下标签：

<?xml version="1.0" encoding="ISO-8859-1" ?>
<FirstTag>
    <Source FileName="myfile">

我希望比这更容易,可能会有一个elementtree或beautifulsoup或其他方式来处理这种情况…我已经做了相当多的搜索,而且似乎没有什么容易/显而易见的.

谢谢

解决方法:

对于处理未封闭元素-或本题标题中的令牌-,我建议尝试使用lxml. lxml的XMLParser具有documented的恢复选项：

recover – try hard to parse through broken XML

例如,给定一个损坏的XML,如下所示：

from lxml import etree

xml = """
<root>
    <Maintag>
        <Change_type>NQ</Change_type>
        <Name>Atlas</Name>
        <Test>ATLS</Test>
        <Other>NYSE</Other>
        <Scheduled_E
"""
parser = etree.XMLParser(recover=True)
doc = etree.fromstring(xml, parser=parser)
print(etree.tostring(doc))

由上述代码打印的恢复的XML如下：

<root>
    <Maintag>
        <Change_type>NQ</Change_type>
        <Name>Atlas</Name>
        <Test>ATLS</Test>
        <Other>NYSE</Other>
        <Scheduled_E/></Maintag></root>

Python XML-处理未关闭的令牌

相关推荐