如何解决NVLink 是否使用 DistributedDataParallel 加速训练?
Nvidia 的 NVLink 可加速同一台机器上多个 GPU 之间的数据传输。 我使用 PyTorch 在这样的机器上训练大型模型。
我明白为什么 NVLink 会使 model-parallel 训练更快,因为一次通过模型将涉及多个 GPU。
但是它会使用 DistributedDataParallel 加速数据并行训练过程吗?
解决方法
如何在 k
GPU 上进行数据并行训练?
您将小批量拆分为 k
部分,每个部分在不同的 GPU 上转发,并在每个 GPU 上估计梯度。但是,(这是非常重要的)更新权重必须在所有 GPU 之间同步。这也是 NVLink 对数据并行训练变得重要的地方。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。