微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

具有给定数据集条件的 PySpark RDD 编程代码

如何解决具有给定数据集条件的 PySpark RDD 编程代码

数据集 1:Employee.txt

ID,Name,AGE,SALARY
101,A,21,8000
102,B,22,14000
103,C,23,7000

使用 PySpark RDD 帮助计算年龄超过 25 岁的员工数量

解决方法

您可以简单地在 RDD 上使用 filtercount

rdd = sc.textFile("Employee.txt")

gt25_count = rdd.filter(lambda x: x != "ID,Name,AGE,SALARY") \
                .map(lambda x: x.split(",")) \
                .filter(lambda x: int(x[2]) > 25) \
                .count()

print(gt25_count)
# 0

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。