微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark的框架

1.组成(主从结构)

client

提交应用的客户端

master(ResourceManager)

主节点,standalone模式时,为master;yarn模式时,为ResourceManager

worker(NodeManager)

从节点,standalone模式时,为worker;yarn模式时,为NodeManager

driver

负责协调应用提交后的一个分布式应用程序,包含一下内容

(1)SparkContext

spark上下文环境,负责应用程序的生命周期

(2)RDD DAG

弹性分布式数据集,spark的计算单元,一组弹性分布式数据集,可以形成有向无环图

(3)DAG scheduler

根据应用构建基于stage(阶段)的有向无环图,并将stage提交给task scheduler

(4)Task scheduler

将包和文件进行序列化,task任务传送给worker上的executor执行

(5)SparkEnv

线程级别的上下文

  • SparkConf

       配置信息

  • broadcastManager

      存储广播变量和元数据信息

 

2.流程

(1)client提交应用给master

(2)master发送指令给worker,worker收到指令,创建driver

(3)driver向master申请资源,并将应用转化等RDD graph

(4)DAG scheduler将RDD graph转化成基于stage的有向无环图

(5)Task scheduler将基于stage的有向无环图图转化成task,将文件和包序列化,传送给对应的worker上的executor执行。

 参考书籍:《循序渐进Spark》

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐