我正在使用pyspark数据框分析一些数据,假设我有一个数据帧df,我正聚合:
df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)
这将给我:
group SUM(money#2L) A 137461285853 B 172185566943 C 271179590646
聚合工作很好,但我不喜欢新的列名称“SUM(money#2L)”。有没有一种整洁的方式将这个列重命名为.agg方法可读的东西?也许更类似于在dplyr中做什么:
df %>% group_by(group) %>% summarise(sum_money = sum(money))
虽然我仍然喜欢dplyr语法,但这段代码片段可以做到:
import pyspark.sql.functions as func df.groupBy("group")\ .agg(func.sum('money').alias('money'))\ .show(100)
它变得冗长
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。