概要

上一篇文章 Spark RPC之Master启动并提供服务介绍了standalone模式下Master端的实现，接着我们看下Worker端的实现，以及Worker如何向Master启动，注册及发送心跳

1. Class Worker

在这里插入图片描述

查看Worker，和Master一样，Worker也是RpcEndpoint的子类，所以接下来查看RpcEndpoint生命周期的四个方法: onStart -> receive(receiveAndReply)* -> onStop。

1.1 Class Worker之onStart()

在这里插入图片描述

如果配置spark.shuffle.service.enabled=true，启动独立的shuffle service。
启动Worker的webUI，默认端口8081。
本篇的第一个重要部分，向Master注册以及发送心跳信息。但是，这部分，在前面已经写过了。，这里只是简单列一下流程，具体代码请参考请参考Master注册机制原理剖析

Worker端：

Worker启动时调用onStart()方法，并在里面调用registerWithMaster( )来向Master注册

registerWithMaster( )又会先调用tryRegisterallMasters( )

tryRegisterallMasters( )发送一个 RegisterWorker的 case class

receive()接收Master注册操作后的返回消息

Master端：

receive()函数中接收到Worker发来的注册消息–RegisterWorker

判断一下当前的Master是否是standby Master

判断Worker是否已经注册过cotain(id)

Master 如果决定接收注册的工人，首先会创建 WorkerInfo对象来保存注册的 Worker 的信息

接着就是注册此Worker:
- 先过滤掉状态为DEAD的Worker，对于状态为UNKNowN的Worker,使用removeWorker清理掉旧的Worker信息(包括清理该worker下的 Executors 和driver)，替换为新的Worker信息
- 然后将worker加入内存缓存中

使用persistenceEngine()将 Worker信息持久化

send()通知Worker注册成功

调用Schedule()进行调度

Worker端：

等待接收Master返回的Response: Case RegisterWorkerResponse => handleRegisterResponse(msg)

在handleRegisterResponse中，如果Case RegisteredWorker，那么

将当前状态修改为Registered

将修改MasterRef为当前的Master

定时使用masterRef.send()向Master发送HeartBeat。Master每60s查看Worker连接情况，Worker端每15s发送一次心跳（参考Spark Rpc之Master实现）

如果设置spark.worker.cleanup.enabled=true，清除Worker的工作目录。

通过masterRef向Master发送自己的WorkerLatestState，主要之让Master去判断与Worker相关的Executor和Driver是否应该继续运行，如果不，那么Masster会通知Worker去KillExecutor、KillDriver

针对Master的消息进行Kill.