如何解决通过torch.distributed.launch运行Pytorch需要更多内存吗?
我可以用很少的GPU来运行我的模型(很少是指少于5个)。当我增加GPU的数量(比如说10个)时,我得到了Cuda内存不足错误:
RuntimeError: CUDA out of memory. Tried to allocate 12.50 MiB (GPU 0; 10.92 GiB total capacity; 8.57 MiB already allocated; 9.28 GiB free; 4.68 MiB cached)
我使用torch.distributed.launch
和DistributedDataParallel
执行脚本。我想知道这种行为的原因是什么,如何避免呢?主节点是否需要更多内存?如果是这样,需要多少?我该如何计算?如何使用10个GPU运行代码?
要考虑的几件事:
- 此问题也发生在V100 GPU上
- 减小批量大小没有帮助,因为我的批量大小已经是1
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。