微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

动态xml解析并在Python中转换为csv

如何解决动态xml解析并在Python中转换为csv

我有一个如下的 XML 文件

$file = "\Input\27532.csv"
$outFile = "\Output\27532.csv"

$content= Get-Content $file | Where-Object { ($_ -notmatch '24') -and ($_ -notmatch '67')  } | Set-Content $outfile

我使用 ElementTree 来获取所需的属性。作为示例代码,我阅读了单列。

<D1>

    <RECORD>
            <NODE>XT-300</NODE>
            <ST_DURATION>10</ST_DURATION>
            <DT_VAL>PBM98XX</DT_VAL>
            <ST_VAL>98987</ST_VAL>
            <EXIST>Yes</EXIST>
    </RECORD>       
    <RECORD>
            <NODE>XT-400</NODE>
            <ST_DURATION>10</ST_DURATION>
            <DT_VAL>CVB98XX</DT_VAL>
            <ST_VAL>65987</ST_VAL>
            <EXIST>Yes</EXIST>
    </RECORD>   
</D1>

我希望动态解析 xml。意思是,我应该在单独的配置文件中提供这些列,并在代码中动态提取这些列。我需要这种动态解析,因为我对其他输入 xml 文件有类似的 xml 结构。只是列名不同。下面是第二个 xml 的示例。

import xml.etree.ElementTree as Xet
import pandas as pd


cols = ["NODE","ST_DURATION","DT_VAL","ST_VAL","EXIST"]
rows = []

xmlparse = Xet.parse('DEVICE1.xml')
root = xmlparse.getroot()

for i in root:
        node = i.find("NODE").text
        rows.append({"NODE": node})
df = pd.DataFrame(rows,columns=cols)
df.to_csv('output.csv')

更新动态解析所需的新xml。

<D1>

    <RECORD>
            <ELEC>EL-13</ELEC>
            <VAL>10</VAL>
            <POWER>Max</POWER>
            <WIRING>2.3</WIRING>
            <ENABLED>Yes</ENABLED>
    </RECORD>       
    <RECORD>
            <ELEC>EL-14</ELEC>
            <VAL>30</VAL>
            <POWER>Max</POWER>
            <WIRING>1.1</WIRING>
            <ENABLED>Yes</ENABLED>
    </RECORD>       
</D1>

解决方法

这是一种方法:

import xmltodict

d = xmltodict.parse("""
<D1>
    <RECORD>
            <ELEC>EL-13</ELEC>
            <VAL>10</VAL>
            <POWER>Max</POWER>
            <WIRING>2.3</WIRING>
            <ENABLED>Yes</ENABLED>
    </RECORD>       
    <RECORD>
            <ELEC>EL-14</ELEC>
            <VAL>30</VAL>
            <POWER>Max</POWER>
            <WIRING>1.1</WIRING>
            <ENABLED>Yes</ENABLED>
    </RECORD>       
</D1>
""")

pd.DataFrame(d).iloc[:,0].explode().apply(pd.Series).reset_index(drop=True).to_csv('out.csv’)

# Alternative:
pd.json_normalize(d).stack().explode().apply(pd.Series)

说明->

  1. 将 XML 转换为 dict。
  2. 将结果加载到数据框中。
  3. 使用explode将dict列表中的值提取到多个roes中。
  4. 应用 pd.seriesdict 生成所需的列
  5. 将输出保存到 csv

更新答案:

df1 = pd.json_normalize(d).stack().explode().apply(pd.Series)
pd.concat([df1.pop('DATA').apply(pd.Series),df1],1)
,

使用 Nk03 提供的代码将您加载的 XML 转换为 Python 字典。

import xmltodict

d = xmltodict.parse("""
<D1>
    <RECORD>
            <ELEC>EL-13</ELEC>
            <VAL>10</VAL>
            <POWER>Max</POWER>
            <WIRING>2.3</WIRING>
            <ENABLED>Yes</ENABLED>
    </RECORD>       
    <RECORD>
            <ELEC>EL-14</ELEC>
            <VAL>30</VAL>
            <POWER>Max</POWER>
            <WIRING>1.1</WIRING>
            <ENABLED>Yes</ENABLED>
    </RECORD>       
</D1>
""")

从那里,您可以生成一个键列表,用作 DataFrame 的列名:

for key in parsed_dictionary.keys():
    cols.append(key)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。