我想为 MS Azure Synapse 中存储为 varchar(max) 的匹配标记提取 XML 值

如何解决我想为 MS Azure Synapse 中存储为 varchar(max) 的匹配标记提取 XML 值

我是新人 Azure 以前使用 SAS，现在我们正在转向 Azure Synapse 在当前环境我想提取存储在列 C (varcharmax) 中的 XML 标记值作为变量。 [数据集][1] [1]：https://i.stack.imgur.com/tbSIF.png 下面的XML保存在C列（PKDATA）

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<ns2:DataSet xmlns:ns2="http://www.test.com/t/cn/el">
    <EnumObject>
        <name>Inpatient</name>
        <value>262784067</value>
        <radiobutton>false</radiobutton>
    </EnumObject>
    <StringObject>
        <name>xxx</name>
        <prompt></prompt>
        <value>/widget.jsp</value>
        <width>99</width>
    </StringObject>
</ns2:DataSet>

如果姓名为住院患者，则住院类型为 262784067

输出

|一个 |乙 |住院类型 | | 11212 | 2587140 | 262784067 |

我使用了以下代码选择a,b,pkdata.value('/EnumObject/name') 作为住院类型来自 dbo.extdata

我收到以下错误找不到列“pkkddata”或用户定义的函数或聚合“pkdata.value”，或者名称不明确。

我尝试使用以下查询，但给了我错误消息：消息 104220，级别 16，状态 1，第 26 行找不到数据类型“xml”。 SELECT a,(pkdata).value('(/EnumObject/name/text())[1]','varchar(100)') FROM [dbo].extdata CROSS APPLY (SELECT CAST(pkdata AS xml) ) AS x(pkdata)

当我使用以下代码时出现以下错误 XMLDT 方法“节点”只能在 xml 类型的列上调用。我尝试使用以下但在传递 select x.* from [dbo].[EXTDATA] rt cross join xmltable('/EnumObject/name'传递 xmltype(rt.pkdata) 列名称编号路径 'name/@值' ) x

不确定如何进行

解决方法

Azure Synapse Analytics，特别是专用的 SQL 池不支持 XML 数据类型或其附带的任何函数，包括 FOR XML、.nodes、.value、.query、{ {1}} 等

如果您需要这种类型的处理，您可以使用传统的 SQL Server，例如 SQL Server 2019 或 Azure SQL DB。一种选择是使用 Synapse Pipelines 将数据移动到那里。作为替代方案，您可以考虑使用 Synapse Notebooks 和一些自定义 Python/Scala/c# 代码，但我只对此做了一个简单的测试。

Scala 中的简单示例：

单元 1

.modify

单元 2

// Get the table with the XML column from the database and expose as temp view
val df = spark.read.synapsesql("yourPool.dbo.someXMLTable")

df.createOrReplaceTempView("someXMLTable")

单元 3

%%sql
-- Use SparkSQL to interrogate the XML
-- https://spark.apache.org/docs/2.3.0/api/sql/index.html#xpath
SELECT
    colA,colB,xpath_string(pkData,'/DataSet/EnumObject[name="Inpatient"]/value') xvalue
FROM someXMLTable

单元 4

val df2 = spark.sql(""" 
SELECT
    colA,'/DataSet/EnumObject[name="Inpatient"]/value') xvalue
FROM someXMLTable
""")

df2.show

来自示例笔记本的丝网印刷：

现在 XML 有点过时了 - 您是否考虑过切换到 JSON？此外，如果您的数据量不是那么大，使用 Azure SQL DB 而不是 Synapse 会便宜很多。