如何解决通过 RDD 和缓存作用进行 Apache Spark 数据帧沿袭修剪
如何修剪 Apache Spark 数据帧沿袭有以下技巧,特别是对于迭代计算:
def getCachedDataFrame(df: DataFrame): DataFrame = {
val rdd = df.rdd.cache()
df.sqlContext.createDataFrame(rdd,df.schema)
}
这看起来像是某种纯粹的魔法,但现在我想知道为什么我们需要在 RDD 上调用 cache()
方法?在这种沿袭修剪逻辑中设置缓存的目的是什么?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。