微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark Scala/Python(使用 Spark 3.1.1) - 对相似行进行分组

如何解决Spark Scala/Python(使用 Spark 3.1.1) - 对相似行进行分组

我正在尝试通过对相似记录进行分组来后退/前进填充行。

例如:

输入DF

时间 id1 id2 id3 property1 属性2
1 id1_1 null id3_1 a b
2 id1_1 id2_1 null a null
3 id1_2 null id3_1 null b

输出df

时间 id1 id2 id3 property1 属性2
1 id1_1 id2_1 id3_1 a b
2 id1_1 id2_1 id3_1 a b
3 id1_2 id2_1 id3_1 a b

如果你注意到上面的数据,第三行'id1'列的值不同,我们仍然需要用id2_1填充'id2'列中的空值,因为理想情况下第2行的'id3'列将填充' id3_1' 通过匹配第 1 行,那么第 2 行和第 3 行将变得相似。

如果这里有人已经遇到过这样的问题。你能帮我吗?

这也可以通过图形框架解决吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。