如何解决气流将多个子流程分解为一个任务并挂起 DAG设置更多详细信息问题
气流版本= 1.10.10
托管在Kubernetes上,使用Kubernetes执行程序。
DAG设置
DAG-使用动态dag生成
任务-是一个PythonOperator,用于提取一些数据,运行推理并存储预测。
它挂在哪里? -使用张量流运行推理时
更多详细信息
如上所述,我们的一项正在运行的任务被挂了4个小时。重新启动没有任何方法可以帮助它从该点恢复。我们发现该Pod具有近30个以上的子进程和40GB的内存使用。
我们不相信,因为在本地计算机上运行时,模型消耗的内存不超过400MB。它不可能突然增加到40GB的内存。
另一个怀疑可能是它正在分解许多进程,因为我们动态地生成了大约19个DAGS。我将生成器更改为仅生成1,并且进程没有消失。工人吊舱仍然具有35个以上具有相同内存的子进程。
这是有趣的部分,我想确保它不是动态DAG。因此,我创建了一个独立的DAG,可打印1..100000,同时暂停5秒钟。内存使用率仍然相同,但进程数不同。
目前,我不确定该朝哪个方向进一步调试问题。
问题
- 为什么任务挂起了?
- 使用动态dag时为什么会有这么多子流程?
- 如何进一步调试此问题?
- 您以前是否遇到过这种情况,您可以帮忙吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。