如何解决在 spark 中使用 Dataframe API 查找最大平均值
我有一张桌子:
Country Emission
England 100
England 200
Germany 150
Germany 170
我想计算每个国家的排放平均值,然后找到一个平均值最大的国家(类似于 max(avg(Emission))
。我想在计算值旁边打印国家/地区,比如:
Germany 160
。
我知道我可以通过计算 avg
、按 avg
排序然后打印第一行来实现,但排序似乎不是最理想的。我可以省略这个吗?
这是我写的排序解决方案:
spdf\
.groupBy("Country")\
.agg(f.avg("Emission").alias("Emission"))\
.orderBy(f.desc("Emission"))\
.limit(1)\
.show()
这是查询,它只返回 max(avg(Emission))
spdf\
.groupBy("Country")\
.avg("Emission")\
.agg(f.max("avg(Emission)").alias("Emission"))\
.show()
解决方法
为了获得最大值而对某些东西进行排序确实是一种耻辱。因此,您可以做的是使用 max
函数。由于您希望保留国家/地区名称,而不仅仅是 Emission 的最大值,因此您可以将两列绑定在 struct
中。代码如下所示:
from pyspark.sql import functions as F
data=[("England",100),("England",200),("Germany",150),170)]
df = spark.createDataFrame(data,["Country","Emission"])
df.groupBy("Country")\
.agg(F.avg("Emission").alias("Emission"))\
.select(F.max(F.struct("Emission","Country")).alias("s"))\
.select("s.*")\
.show()
+--------+-------+
|Emission|Country|
+--------+-------+
| 160.0|Germany|
+--------+-------+
第一个 select
选择排放量最大的国家。结果包含在名为 "s"
的结构中。第二个选择解包结果。
您也可以使用窗口函数代替分组依据。这个想法也是构造一个结构体,获取该结构体的最大值并扩展其元素。
df2 = df.selectExpr('struct(Country,avg(Emission) over (partition by Country) avg_emission) s') \
.selectExpr('max(s) s') \
.select('s.*')
df2.show()
+-------+------------+
|Country|avg_emission|
+-------+------------+
|Germany| 160.0|
+-------+------------+
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。