如何解决如何在分布式训练集群中解释来自 AI Platform 的日志以及参数服务器的作用是什么?
我已经在 Google AI Platform 上的训练集群中训练了一个模型,并且我正在尝试在训练完成后了解日志。我的集群如下(1 个 master 有两个 GPU,1 个 worker 有两个 GPU,1 个参数服务器):
{
"scaleTier": "CUSTOM","masterType": "n1-highcpu-32","workerType": "n1-highcpu-32","parameterServerType": "n1-highmem-8","workerCount": "1","parameterServerCount": "1","args": [...],"masterConfig": {
"acceleratorConfig": {
"count": "2","type": "NVIDIA_TESLA_T4"
},"imageUri": "gcr.io/..."
},"workerConfig": {
"acceleratorConfig": {
"count": "2","imageUri": "gcr.io/..."
}
}
我的训练工作的 epoch 数是 150(没有提前停止)。如果我使用“master”标签过滤我的工作日志,我可以看到该工作已经完成了所有 150 个时期(最后一个时间戳是 19:53:58)。我观察到工人副本的相同模式(最后一个时期也是 150,最后一个时间戳是 19:53:52)。但是当我过滤参数副本时,我观察到现在最后一个纪元是 103(最后一个时间戳是 19:54:05):
我的张量板图显示的曲线(训练和验证)也在 103 处停止。从这些观察中可以理解什么?我期待在 150 处停止的张量板曲线。也许我不太了解参数服务器的作用。我知道它“存储模型参数并协调工作人员之间共享的模型状态”,但我在这个定义中没有看到任何可以解释为什么我的曲线停止在 103 的东西。这可能是因为参数服务器时间滞后它覆盖了我提供 Tensorboard 的事件日志?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。