微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

AI平台培训作业以非零状态1退出终止原因:错误

如何解决AI平台培训作业以非零状态1退出终止原因:错误

我的Tensorflow培训作业正在以非零状态1退出,并且没有给出任何有用的错误消息。追溯似乎是隐藏的,并且提供的链接是相似的。这是日志输出内容

enter image description here

我已经检查了具有 Cloud ML Service Agent 角色的服务帐户,该帐户具有 logging.logEntries.create 的权限。 Cloud ML Service代理的描述还指出:

Cloud ML服务代理可以充当日志编写器,Cloud Storage管理员,Artifact Registry阅读器,BigQuery写作者和服务帐户访问令牌创建者。

所以我假设它具有将日志写入记录器的权限...我的问题是我该如何解决为什么我的工作失败的原因?

解决方法

这可能是您的培训虚拟机实例没有足够的权限来写入日志。获取VM的服务帐户名称,转到IAM角色并将Log writer角色分配给该服务帐户。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。