如何解决Spark Scala/Python(使用 Spark 3.1.1) - 对相似行进行分组
我正在尝试通过对相似记录进行分组来后退/前进填充行。
例如:
输入DF
时间 | id1 | id2 | id3 | property1 | 属性2 |
---|---|---|---|---|---|
1 | id1_1 | null | id3_1 | a | b |
2 | id1_1 | id2_1 | null | a | null |
3 | id1_2 | null | id3_1 | null | b |
输出df
时间 | id1 | id2 | id3 | property1 | 属性2 |
---|---|---|---|---|---|
1 | id1_1 | id2_1 | id3_1 | a | b |
2 | id1_1 | id2_1 | id3_1 | a | b |
3 | id1_2 | id2_1 | id3_1 | a | b |
如果你注意到上面的数据,第三行'id1'列的值不同,我们仍然需要用id2_1填充'id2'列中的空值,因为理想情况下第2行的'id3'列将填充' id3_1' 通过匹配第 1 行,那么第 2 行和第 3 行将变得相似。
如果这里有人已经遇到过这样的问题。你能帮我吗?
这也可以通过图形框架解决吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。