如何在分布式训练集群中解释来自 AI Platform 的日志以及参数服务器的作用是什么？

如何解决如何在分布式训练集群中解释来自 AI Platform 的日志以及参数服务器的作用是什么？

我已经在 Google AI Platform 上的训练集群中训练了一个模型，并且我正在尝试在训练完成后了解日志。我的集群如下（1 个 master 有两个 GPU，1 个 worker 有两个 GPU，1 个参数服务器）：

{
  "scaleTier": "CUSTOM","masterType": "n1-highcpu-32","workerType": "n1-highcpu-32","parameterServerType": "n1-highmem-8","workerCount": "1","parameterServerCount": "1","args": [...],"masterConfig": {
    "acceleratorConfig": {
      "count": "2","type": "NVIDIA_TESLA_T4"
    },"imageUri": "gcr.io/..."
  },"workerConfig": {
    "acceleratorConfig": {
      "count": "2","imageUri": "gcr.io/..."
  }
}

我的训练工作的 epoch 数是 150（没有提前停止）。如果我使用“master”标签过滤我的工作日志，我可以看到该工作已经完成了所有 150 个时期（最后一个时间戳是 19:53:58）。我观察到工人副本的相同模式（最后一个时期也是 150，最后一个时间戳是 19:53:52）。但是当我过滤参数副本时，我观察到现在最后一个纪元是 103（最后一个时间戳是 19:54:05）：

我的张量板图显示的曲线（训练和验证）也在 103 处停止。从这些观察中可以理解什么？我期待在 150 处停止的张量板曲线。也许我不太了解参数服务器的作用。我知道它“存储模型参数并协调工作人员之间共享的模型状态”，但我在这个定义中没有看到任何可以解释为什么我的曲线停止在 103 的东西。这可能是因为参数服务器时间滞后它覆盖了我提供 Tensorboard 的事件日志？

如何在分布式训练集群中解释来自 AI Platform 的日志以及参数服务器的作用是什么？

如何解决如何在分布式训练集群中解释来自 AI Platform 的日志以及参数服务器的作用是什么？

相关推荐