GCP上的Python3 Pytorch RuntimeError-无消息

如何解决GCP上的Python3 Pytorch RuntimeError-无消息

我的系统

我正在使用pytorch 1.6.0和Python 3.6.9进行神经网络培训。
我正在使用带有Tesla T4、2核CPU，12GB RAM的Google云平台N1服务器。这是在Ubuntu 18.04映像上。

问题

当我的代码到达培训行时，我得到以下RuntimeError，但我没有看到真正的解释：

-- Process 0 terminated with the following error:
Traceback (most recent call last):
  File "/home/or/.local/share/virtualenvs/or-M3_AaJfY/lib/python3.6/site-packages/torch/multiprocessing/spawn.py",line 20,in _wrap
    fn(i,*args)
  File "/home/or/my_model/train.py",line 88,in train_and_eval
    train(rank,epoch,hps,generator,optimizer_g,train_loader,logger,writer)
  File "/home/or/my_model/train.py",line 117,in train
    scaled_loss.backward()
  File "/home/or/.local/share/virtualenvs/or-M3_AaJfY/lib/python3.6/site-packages/torch/tensor.py",line 185,in backward
    torch.autograd.backward(self,gradient,retain_graph,create_graph)
  File "/home/or/.local/share/virtualenvs/or-M3_AaJfY/lib/python3.6/site-packages/torch/autograd/__init__.py",line 127,in backward
    allow_unreachable=True)  # allow_unreachable flag
RuntimeError

这种情况发生在两个CPU内核100％长时间使用的时候。
RAM和GPU虽然上升了（在训练时如预期），但并没有达到它们的极限限制。
我检查了journalctl，看看这是否是操作系统问题，但没有任何问题。我还没有在/ var / log /目录中或使用dmesg的任何内容。
我很乐意提供更多日志数据，但我不知道（搜索之后）我可以查看的任何python日志或任何其他系统日志。

如果您有任何想法，请让我知道如何获得更多信息。

完全相同的代码在我测试过的其他物理机上可以100％正常运行，而仅GPU的版本在其他云计算提供商上可以正常运行

我在寻找什么

如何获取有关此问题的更多信息并弄清其原因。
解决此问题的方法

提前感谢您的时间，以及可能提供的任何帮助。

解决方法

Anthony Leo非常感谢您的详细回答！不幸的是，这最终成为我在设置服务器时安装的其中一个模块的问题。
但这最终不是服务器本身或代码的问题，我只是在设置时错误地安装了模块。

对于其他人在这个问题上花费的所有时间，我感到很抱歉。

就找到获取有关该问题的更多信息的方式而言，以弄清楚为什么会发生此问题。您可以将故障排除分为两层：

应用层
GCE VM实例层

在大多数情况下，我们将重点关注GCE VM实例层，因为在此位置可能会找到更多信息，因为这些日志将向我们显示GCE instacne在运行之前或之后出现问题的信息。您在上面介绍的stacktrace。

根据您的VM实例配置，建议将Cloud Logging Agent安装到受影响的VM上，以便我们可以从VM内部收集日志。这也将有所帮助，因为收集的这些日志是准确的。

一旦在VM上安装并运行了代理，我们就可以将自己定向到GCP上的Logs Explorer控制台，这将使我们能够从上面提到的层中查看两种类型的日志。请记住，通过此步骤，您应该重新运行您的应用程序及其方案。

从此处开始，我们可以使用Logs Explorer在logs queries中查看所有日志并根据时间戳，资源类型等对它们进行排序。这将是一个很好的起点，因为它将允许您按照导致错误的日志的时间顺序查看所有日志。这样一来，您就可以找出发生此问题的原因和/或提供解决此问题的线索。

GCP上的Python3 Pytorch RuntimeError-无消息

如何解决GCP上的Python3 Pytorch RuntimeError-无消息

我的系统

问题

我在寻找什么

解决方法

相关推荐