在spark RDD中应该使用哪种方法来处理这种情况解释？

时间：2022-06-02分类：编程问答

在从另一个 RDD rdd0 进行大量计算之后，您正在创建一个 RDD rdd1。然后我们需要经常使用rdd1。 rdd1 的大小非常小，我们在每个容器上都有大量可用的 RAM。在spark RDD中应该使用哪种方法来处理这种情况。解释一下？

使用cache将计算结果缓存在内存中，这样就不需要重新计算：

rdd1 = # operations on rdd0
rdd1.cache()

小编推荐