微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何恢复/重新提交卡住的SGE作业qsub的用法?

如何解决如何恢复/重新提交卡住的SGE作业qsub的用法?

由于节点崩溃或我说AWS Spot实例被带走了,我试图恢复/重新提交卡住的作业(在SGE调度程序上运行)?有人可以帮助恢复这些工作吗?我一直在尝试了解 qsub 用法,但无法进行配置以自动重新提交此类作业。

仅使用 qconf root 也无法使用 sge_admin 命令配置我的队列用户可以运行此命令,我确实具有 root -privileges,但要求我设置 SGE_ROOT 环境变量,我确实做了,但仍然保留抛出错误以设置变量。

我们将不胜感激。

解决方法

来自 qsub 手册页:

  -r y[es]|n[o]
       Available for qsub and qalter only.

       Identifies the ability of a job to be rerun or not.  
       If the value of -r is 'yes',the job will be rerun if the job was 
       aborted without leaving a consistent  exit state.  

       (This is typically the case if the node on which the job is running
       crashes).  If -r is 'no',the job will not be rerun under any circumstances.
       Interactive jobs submitted with qsh,qrsh or qlogin are not rerunnable.

       Qalter allows changing this option even while the job executes.

所以添加

#$ -r y

在你的工作脚本中应该满足这一点。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。