如何解决AI平台培训作业以非零状态1退出终止原因:错误
我的Tensorflow培训作业正在以非零状态1退出,并且没有给出任何有用的错误消息。追溯似乎是隐藏的,并且提供的链接是相似的。这是日志输出的内容:
我已经检查了具有 Cloud ML Service Agent 角色的服务帐户,该帐户具有 logging.logEntries.create 的权限。 Cloud ML Service代理的描述还指出:
Cloud ML服务代理可以充当日志编写器,Cloud Storage管理员,Artifact Registry阅读器,BigQuery写作者和服务帐户访问令牌创建者。
所以我假设它具有将日志写入记录器的权限...我的问题是我该如何解决为什么我的工作失败的原因?
解决方法
这可能是您的培训虚拟机实例没有足够的权限来写入日志。获取VM的服务帐户名称,转到IAM角色并将Log writer
角色分配给该服务帐户。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。