1.组成(主从结构)
client
提交应用的客户端
master(ResourceManager)
主节点,standalone模式时,为master;yarn模式时,为ResourceManager
worker(NodeManager)
从节点,standalone模式时,为worker;yarn模式时,为NodeManager
driver
(1)SparkContext
spark上下文环境,负责应用程序的生命周期
(2)RDD DAG
弹性分布式数据集,spark的计算单元,一组弹性分布式数据集,可以形成有向无环图
(3)DAG scheduler
根据应用构建基于stage(阶段)的有向无环图,并将stage提交给task scheduler
(4)Task scheduler
将包和文件进行序列化,task任务传送给worker上的executor执行
(5)SparkEnv
线程级别的上下文
- SparkConf
配置信息
- broadcastManager
存储广播变量和元数据信息
2.流程
(1)client提交应用给master
(2)master发送指令给worker,worker收到指令,创建driver
(3)driver向master申请资源,并将应用转化等RDD graph
(4)DAG scheduler将RDD graph转化成基于stage的有向无环图
(5)Task scheduler将基于stage的有向无环图图转化成task,将文件和包序列化,传送给对应的worker上的executor执行。
参考书籍:《循序渐进Spark》
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。