微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在分布式训练集群中解释来自 AI Platform 的日志以及参数服务器的作用是什么?

如何解决如何在分布式训练集群中解释来自 AI Platform 的日志以及参数服务器的作用是什么?

我已经在 Google AI Platform 上的训练集群中训练了一个模型,并且我正在尝试在训练完成后了解日志。我的集群如下(1 个 master 有两个 GPU,1 个 worker 有两个 GPU,1 个参数服务器):

{
  "scaleTier": "CUSTOM","masterType": "n1-highcpu-32","workerType": "n1-highcpu-32","parameterServerType": "n1-highmem-8","workerCount": "1","parameterServerCount": "1","args": [...],"masterConfig": {
    "acceleratorConfig": {
      "count": "2","type": "NVIDIA_TESLA_T4"
    },"imageUri": "gcr.io/..."
  },"workerConfig": {
    "acceleratorConfig": {
      "count": "2","imageUri": "gcr.io/..."
  }
}

我的训练工作的 epoch 数是 150(没有提前停止)。如果我使用“master”标签过滤我的工作日志,我可以看到该工作已经完成了所有 150 个时期(最后一个时间戳是 19:53:58)。我观察到工人副本的相同模式(最后一个时期也是 150,最后一个时间戳是 19:53:52)。但是当我过滤参数副本时,我观察到现在最后一个纪元是 103(最后一个时间戳是 19:54:05):

last epochs from parameter-replica

我的张量板图显示的曲线(训练和验证)也在 103 处停止。从这些观察中可以理解什么?我期待在 150 处停止的张量板曲线。也许我不太了解参数服务器的作用。我知道它“存储模型参数并协调工作人员之间共享的模型状态”,但我在这个定义中没有看到任何可以解释为什么我的曲线停止在 103 的东西。这可能是因为参数服务器时间滞后它覆盖了我提供 Tensorboard 的事件日志?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?