微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

过滤掉在 Java 中没有某些嵌套字段的 Spark 数据帧行

如何解决过滤掉在 Java 中没有某些嵌套字段的 Spark 数据帧行

我在 spark 数据框中有以下示例行。

{
    "id":"B07H3MVTSN","mid":4,"inner":{
      "type1":[{
          "cid":"B06XVVSLX8"
        },{
          "cid":"B06XJ2JZ2Z"
        }
      ],"type2":[{
          "cid":"B06XVVSLX1"
        },{
          "cid":"B06XJ2JZ22"
        }
      ],"type3":[{
          "cid":"B06XVVSLX3"
        },{
          "cid":"B06XJ2JZ24"
        }
      ]
    }
  }

我有一个字符串列表,可以是 {"type1","type2"}。

我想从数据框中过滤掉(删除)没有这两个字段中的任何一个的行。如何添加 filter() 条件,该条件从列表中的一组值中检查嵌套结构字段的存在

例如下面的示例行应该使用过滤条件删除,因为它不包含 type1 和 type2

{
        "id":"B07H3MVTS1","inner":{
          "type3":[{
              "cid":"B06XVVSLX3"
            },{
              "cid":"B06XJ2JZ24"
            }
          ]
        }
      }

以上数据的模式可以在下面的方法 getSchema() 中看到

private StructType getSchema(){

        ArrayType types = DataTypes.createArrayType(DataTypes.createStructType(
                new StructField[] {
                        DataTypes.createStructField("cid",DataTypes.StringType,false)
                }));

        StructType inner = DataTypes.createStructType(
                new StructField[] {
                        DataTypes.createStructField("type1",types,true),DataTypes.createStructField("type2",DataTypes.createStructField("type3",DataTypes.createStructField("type4",true)
                });

        return DataTypes.createStructType(
                new StructField[] {
                        DataTypes.createStructField("id",false),DataTypes.createStructField("mid",DataTypes.IntegerType,DataTypes.createStructField("inner",inner,false)
                });
    }

解决方法

您可以filter使用isNotNull功能的字段列表如下,根据需要调整过滤条件

val fields = List("type1","type2")

val filter = fields.map(f => col(s"inner.$f").isNotNull).reduce(_ or _)

df.filter(filter).show(false)

输出:

+----------+------------------------------------------------------------------------------------------+---+
|id        |inner                                                                                     |mid|
+----------+------------------------------------------------------------------------------------------+---+
|B07H3MVTSN|{[{B06XVVSLX8},{B06XJ2JZ2Z}],[{B06XVVSLX1},{B06XJ2JZ22}],[{B06XVVSLX3},{B06XJ2JZ24}]}|4  |
+----------+------------------------------------------------------------------------------------------+---+

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。