微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

为什么 Spark 阶段只有一个功能而不是在地图阶段进行如此多的转换

如何解决为什么 Spark 阶段只有一个功能而不是在地图阶段进行如此多的转换

我很困惑为什么一个舞台只有一个功能。 在下面的代码中,地图阶段应该包含两个地图函数而不是一个

def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("test").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val data = Array("Runoob","Baidu","Google")

    val distData = sc.parallelize(data).map(x => (x,1))
      .map(x => x._2 + 1)
      .collect()
    distData.length
  }
 

阶段是一组独立的任务,它们都计算需要作为 Spark 作业的一部分运行的相同功能,其中所有任务具有相同的 shuffle 依赖项。调度器运行的每个 DAG 任务在发生 shuffle 的边界处被分成阶段,然后 DAGScheduler 以拓扑顺序运行这些阶段。

此网址中的舞台含义; enter link description here

解决方法

连续的 map 操作通常可以组合为单个 map 操作。据推测,Spark 意识到组合操作

x => (x,1)

x => x._2 + 1

相当于

x => (x,1) => 1 + 1

x => 2,这是一个单一的函数。这就是您在 Spark 阶段只看到一个函数的原因。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。