微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在spark RDD中应该使用哪种方法来处理这种情况解释?

如何解决在spark RDD中应该使用哪种方法来处理这种情况解释?

在从另一个 RDD rdd0 进行大量计算之后,您正在创建一个 RDD rdd1。然后我们需要经常使用rdd1。 rdd1 的大小非常小,我们在每个容器上都有大量可用的 RAM。在spark RDD中应该使用哪种方法来处理这种情况。解释一下?

解决方法

使用cache将计算结果缓存在内存中,这样就不需要重新计算:

rdd1 = # operations on rdd0
rdd1.cache()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。