微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

@tensorflow/tfjs-node-gpu 适用于 NVIDIA P4,但在 GKE 上使用 V100 失败

如何解决@tensorflow/tfjs-node-gpu 适用于 NVIDIA P4,但在 GKE 上使用 V100 失败

我的 tfjs-node-gpu 代码在 GKE 上的 NVIDIA p4 上运行良好(并在浏览器中使用 WebGL),但在 v100 和 t4 上运行失败。

节点在我的预热中的第一个预测调用中崩溃。我正在使用 128x128 的小块来预测 4 倍图像的放大,使用理想的甘斯。 v100 初始化正常,显示为 nvidia_smi,显示为 TF 设备,NUMA 内容一切正常。它只是使我的节点快速服务器崩溃。我无法找到崩溃堆栈,因为这是在 Docker 容器中启动的,而我最后一次尝试从 stderr 记录崩溃失败。

我已经尝试过最新的 tfjs-node-gpu 3.0 和 2.8.5。 GKE 配置为安装 NV 驱动程序,目前为 410.104 和 CUDA 10.0。

我尝试启用调试模式,并将 {verbose: true} 传递给我的预热函数中失败的 model.predict() 调用。都没有在预热调用添加任何输出,这很奇怪,因为我确实在对 model.predict()

的实际非预热调用中看到了输出

关于如何进一步调试的任何建议?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。