如何解决当任何子进程获得 OOM Killer SIGKILL
我有一个在奇点 (OS centos 7) 下运行的容器化模拟过程。有时,模拟需要更多由作业调度程序分配给它们的资源(我相信 PBS 使用 CGroups 来强制执行系统资源约束),这会导致 OOM 杀手终止容器中的一个进程。我在下面说明了简化的流程结构:
被杀死的进程似乎是不确定的,在某些情况下,Numerical Solver 被 OOM Killer 杀死,其他情况下它是主要的模拟进程。问题是奇点容器不会在所有这些情况下都退出,只有在主 Simulation 被终止时(而不是在 Numerical Solver 或 Matlab_Helper 进程被终止时)。
我可以监视发送到 Singularity 运行时进程的 SIGCHILD 信号并检查子进程退出代码吗?我可以检查进程组中任何进程的 SIGKILL 吗?当作业超过其资源限制时,是否有更简单的方法来终止容器?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。