微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 Apache Spark 比较两个 Json 文件

如何解决使用 Apache Spark 比较两个 Json 文件

我是 Apache Spark 的新手,我正在尝试比较两个 json 文件。 我的要求是找出添加删除修改了哪个键/值以及它的路径是什么。

为了解释我的问题,我在这里分享了我用一个小的 json 示例尝试过的代码

示例 Json 1 是:

{
“员工”:{
"name": "sonoo",
“薪水”:57000,
“已婚”:真实
} }

示例 Json 2 是:

{
“员工”:{
"name": "sonoo",
“薪水”:58000,
“已婚”:真实
} }

我的代码是:

//Compare two multiline json files
val sqlContext = new org.apache.spark.sql.sqlContext(sc)
//Load first json file
val jsonData_1 = sqlContext.read.json(sc.wholeTextFiles("D:\\File_1.json").values)

//Load second json file
val jsonData_2 = sqlContext.read.json(sc.wholeTextFiles("D:\\File_2.json").values)
//Compare both json files
jsonData_2.except(jsonData_1).show(false)

我在执行此代码时得到的输出是:

+--------------------+
|employee            |
+--------------------+
|{true,sonoo,58000}|
+--------------------+

但这里只有一个字段,即 salary修改,所以输出应该只是带有路径的更新字段。

以下是预期的输出详细信息:

[
  {
    "op" : "replace","path" : "/employee/salary","value" : 58000
  }
]

谁能指出我正确的方向?

解决方法

假设每个 json 都有一个标识符,并且您有两个 json 组(例如文件夹),您需要比较两个组中的 jsons:

  1. 将每个组中的 json 加载到数据帧中,提供与子结构匹配的模式。在此之后,您有两个数据框。
  2. 通过加入标识符比较 jsons(现在是数据帧中的行),寻找不匹配的值。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。