如何解决使用 Apache Spark 比较两个 Json 文件
我是 Apache Spark 的新手,我正在尝试比较两个 json 文件。 我的要求是找出添加、删除或修改了哪个键/值以及它的路径是什么。
为了解释我的问题,我在这里分享了我用一个小的 json 示例尝试过的代码。
示例 Json 1 是:
{
“员工”:{
"name": "sonoo",
“薪水”:57000,
“已婚”:真实
} }
示例 Json 2 是:
{
“员工”:{
"name": "sonoo",
“薪水”:58000,
“已婚”:真实
} }
我的代码是:
//Compare two multiline json files
val sqlContext = new org.apache.spark.sql.sqlContext(sc)
//Load first json file
val jsonData_1 = sqlContext.read.json(sc.wholeTextFiles("D:\\File_1.json").values)
//Load second json file
val jsonData_2 = sqlContext.read.json(sc.wholeTextFiles("D:\\File_2.json").values)
//Compare both json files
jsonData_2.except(jsonData_1).show(false)
+--------------------+
|employee |
+--------------------+
|{true,sonoo,58000}|
+--------------------+
但这里只有一个字段,即 salary 被修改,所以输出应该只是带有路径的更新字段。
以下是预期的输出详细信息:
[
{
"op" : "replace","path" : "/employee/salary","value" : 58000
}
]
谁能指出我正确的方向?
解决方法
假设每个 json 都有一个标识符,并且您有两个 json 组(例如文件夹),您需要比较两个组中的 jsons:
- 将每个组中的 json 加载到数据帧中,提供与子结构匹配的模式。在此之后,您有两个数据框。
- 通过加入标识符比较 jsons(现在是数据帧中的行),寻找不匹配的值。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。