如何解决Pyspark groupby 并计算空值
PySpark Dataframe Groupby and Count Null Values
参考上面的解决方案链接,我正在尝试应用相同的逻辑,但 groupby("country") 并获取另一列的空计数,并且出现“列不可迭代”失败。有人可以帮忙吗?
df7.groupby("country").agg(*(sum(col(c).isNull().cast("int")).alias(c) for c in columns))
解决方法
covid_india_df.select(
[
funcs.count(
funcs.when((funcs.isnan(clm) | funcs.col(clm).isNull()),clm)
).alias(clm) for clm in covid_india_df.columns
]
).show()
上述方法可能会帮助您获得正确的结果。 Check here 获取完整示例。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。