微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用 SLURM 停止计算节点?

如何解决如何使用 SLURM 停止计算节点?

我在 AWS 上使用 SLURM 来管理作为 AWS 并行集群一部分的作业。我有两个问题:

  • 使用 scancel *jobid* 取消作业时,关联节点不会停止。我怎样才能做到这一点?
  • 开始时,我犯了一个错误,没有让我的脚本可执行,所以 sbatch *script.sh* 可以工作,但计算节点什么都不做。我怎样才能识别这种行为并正确处理它?是否适合例如例如,一段时间后停止空闲节点并将其输出到日志中?我怎样才能做到这一点?

解决方法

在文档中查看此页面:https://docs.aws.amazon.com/parallelcluster/latest/ug/autoscaling.html

最重要的是,在超过 scaledown_idletime(默认设置为 10 分钟)的一段时间内没有作业的实例将被集群自动缩小(终止)。

如果 10 分钟太长,您可以在构建集群时调整配置文件中的设置。请先考虑您的工作负载,因为您不希望作业之间的小延迟导致大量流失,同时您要等待节点死亡,然后在不久之后再次创建,因此需要 10 分钟。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。