通过 RDD 和缓存作用进行 Apache Spark 数据帧沿袭修剪

时间：2022-10-27分类：编程问答

如何修剪 Apache Spark 数据帧沿袭有以下技巧，特别是对于迭代计算：

def getCachedDataFrame(df: DataFrame): DataFrame = {
    val rdd = df.rdd.cache()
    df.sqlContext.createDataFrame(rdd,df.schema)
}

这看起来像是某种纯粹的魔法，但现在我想知道为什么我们需要在 RDD 上调用 cache() 方法？在这种沿袭修剪逻辑中设置缓存的目的是什么？

小编推荐