微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

scala – Spark – 一次通过RDD上的多个过滤器

我有一个RDD的Map [String,String];有没有办法多次调用过滤它而不经过RDD多次?

例如,我想做这样的事情:

val stateNY = mapRDD.filter(person => person("state").equals("NY"))
val stateOR = mapRDD.filter(person => person("state").equals("OR"))
val stateMA = mapRDD.filter(person => person("state").equals("MA"))
val stateWA = mapRDD.filter(person => person("state").equals("WA"))

还有这个:

val wage10to20 = mapRDD.filter(person => person("wage").todouble > 10 && person("wage").todouble <= 20)
val wage20to30 = mapRDD.filter(person => person("wage").todouble > 20 && person("wage").todouble <= 30)
val wage30to40 = mapRDD.filter(person => person("wage").todouble > 30 && person("wage").todouble <= 40)
val wage40to50 = mapRDD.filter(person => person("wage").todouble > 40 && person("wage").todouble <= 50)

其中mapRDD的类型为RDD [Map [String,String]],一次传递.

解决方法

我假设你的意思是你想为每个值返回单独的RDD(即不是简单地做人=> Set(“NY”,“OR”,“MA”,“WA”).contains(person(“state”)) )

通常,使用Pair RDDs可以实现您想要实现的目标

在您的第一个示例中,您可以使用:

val keyByState = mapRDD.keyBy(_("state"))

后执行groupByKey,reduceByKey等操作.

或者在你的第二个例子中,按工资向下舍入到最接近的10.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐