如何解决Kubeflow Pipeline 实验运行始终在运行
我有多个实验运行(工作流程),它们运行了一组 kuberenets pod(工作流中的子项),但由于某种原因,即使所有子 pod 都已完成(成功/失败),某些运行仍在运行数天。
我一直在查看工作流控制器的日志,但找不到问题所在。 我已经浏览了workflow.py 文件以查看那里是否有问题,但可以找到某些运行已完成而某些仍在运行的原因。 提醒一下 - 我说的是同一个实验的不同运行。
在查看成功工作流与保持运行工作流的日志时,我有一些不同:
来自成功的工作流程:
time="2021-06-11T17:38:37Z" level=info msg="Found Workflow default-tenant/txyz set expire at 2021-06-11 17:50:37 +0000 UTC (11m59 .461359494s 从现在开始)"
time="2021-06-11T17:38:37Z" level=info msg="排队工作流 default-tenant/xyz 以在 11m59.461359494s 内删除"
time="2021-06-11T17:50:37Z" level=info msg="删除 TTL 过期工作流 default-tenant/xyz"
time="2021-06-11T17:50:37Z" level=info msg="已成功删除'default-tenant/xyz'"
。 .
来自仍在运行的工作流程:
time="2021-06-11T09:13:10Z" level=info msg="节点未设置为在状态后重试:错误" namespace=default-tenant workflow=xyz>
直到现在收到以下消息:
time="2021-06-11T09:38:42Z" level=info msg="Processing workflow" namespace=default-tenant workflow=xyz
。 .
谢谢,
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。