如何解决GCP上的Python3 Pytorch RuntimeError-无消息
我的系统
我正在使用pytorch 1.6.0和Python 3.6.9进行神经网络培训。
我正在使用带有Tesla T4、2核CPU,12GB RAM的Google云平台N1服务器。
这是在Ubuntu 18.04映像上。
问题
当我的代码到达培训行时,我得到以下RuntimeError
,但我没有看到真正的解释:
-- Process 0 terminated with the following error:
Traceback (most recent call last):
File "/home/or/.local/share/virtualenvs/or-M3_AaJfY/lib/python3.6/site-packages/torch/multiprocessing/spawn.py",line 20,in _wrap
fn(i,*args)
File "/home/or/my_model/train.py",line 88,in train_and_eval
train(rank,epoch,hps,generator,optimizer_g,train_loader,logger,writer)
File "/home/or/my_model/train.py",line 117,in train
scaled_loss.backward()
File "/home/or/.local/share/virtualenvs/or-M3_AaJfY/lib/python3.6/site-packages/torch/tensor.py",line 185,in backward
torch.autograd.backward(self,gradient,retain_graph,create_graph)
File "/home/or/.local/share/virtualenvs/or-M3_AaJfY/lib/python3.6/site-packages/torch/autograd/__init__.py",line 127,in backward
allow_unreachable=True) # allow_unreachable flag
RuntimeError
- 这种情况发生在两个CPU内核100%长时间使用的时候。
- RAM和GPU虽然上升了(在训练时如预期),但并没有达到它们的极限 限制。
- 我检查了
journalctl
,看看这是否是操作系统问题,但没有任何问题。我还没有在/ var / log /目录中或使用dmesg
的任何内容。 - 我很乐意提供更多日志数据,但我不知道(搜索之后)我可以查看的任何python日志或任何其他系统日志。
如果您有任何想法,请让我知道如何获得更多信息。
完全相同的代码在我测试过的其他物理机上可以100%正常运行,而仅GPU的版本在其他云计算提供商上可以正常运行
我在寻找什么
- 如何获取有关此问题的更多信息并弄清其原因。
- 解决此问题的方法
提前感谢您的时间,以及可能提供的任何帮助。
解决方法
Anthony Leo非常感谢您的详细回答!
不幸的是,这最终成为我在设置服务器时安装的其中一个模块的问题。
但这最终不是服务器本身或代码的问题,我只是在设置时错误地安装了模块。
对于其他人在这个问题上花费的所有时间,我感到很抱歉。
,就找到获取有关该问题的更多信息的方式而言,以弄清楚为什么会发生此问题。您可以将故障排除分为两层:
- 应用层
- GCE VM实例层
在大多数情况下,我们将重点关注GCE VM实例层,因为在此位置可能会找到更多信息,因为这些日志将向我们显示GCE instacne在运行之前或之后出现问题的信息。您在上面介绍的stacktrace。
根据您的VM实例配置,建议将Cloud Logging Agent安装到受影响的VM上,以便我们可以从VM内部收集日志。这也将有所帮助,因为收集的这些日志是准确的。
一旦在VM上安装并运行了代理,我们就可以将自己定向到GCP上的Logs Explorer控制台,这将使我们能够从上面提到的层中查看两种类型的日志。请记住,通过此步骤,您应该重新运行您的应用程序及其方案。
从此处开始,我们可以使用Logs Explorer在logs queries中查看所有日志并根据时间戳,资源类型等对它们进行排序。这将是一个很好的起点,因为它将允许您按照导致错误的日志的时间顺序查看所有日志。这样一来,您就可以找出发生此问题的原因和/或提供解决此问题的线索。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。