微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Gahp 服务器故障问题意外退出,状态为 1

如何解决Gahp 服务器故障问题意外退出,状态为 1

我正在开发一个基于 Web 的工具(名为 cloudcopasi),该工具从用户那里获取作业并将其提交给 bosco 资源(计算节点)。我在 Linux CentOS 7 上使用 bosco 版本(condor 8.8.12)。Web 界面允许用户添加用户可用于提交作业的 bosco 池。但是,当我尝试提交作业时,它失败了。我也尝试使用以下命令测试池:

bosco_cluster --test

它给了我以下 Gahp 错误

…..
Testing bosco submission...Passed!
Submission and log files for this job are in /home/cloudcopasi/bosco/local.bosco/bosco-test/boscotest.LTA07r
Waiting for jobmanager to accept job...Passed
Checking for submission to remote slurm cluster (Could take ~30 seconds)...Failed
Showing last 5 lines of logs:
01/06/21 13:34:03 [3800] Gahp Server (pid=3815) exited with status 1 unexpectedly
01/06/21 13:34:08 [3800] gahp server not up yet,delaying ping
01/06/21 13:34:08 [3800] No jobs left,shutting down
01/06/21 13:34:08 [3800] Got SIGTERM. Performing graceful shutdown.
01/06/21 13:34:08 [3800] **** condor_gridmanager (condor_GRIDMANAGER) pid 3800 EXITING WITH STATUS 0

我不确定我缺少什么,但我不明白如何解决这个“Gahp 服务器”问题。

非常感谢任何帮助。

谢谢。

解决方法

这可能是 ssh 失败(网络、身份验证或授权)。 Bosco 运行以下命令访问远程集群提交主机:

<sbin>/remote_gahp <user>@<hostname> batch_gahp

您可以在命令行上运行它以获取有关问题的更多详细信息。 remote_gahp 是一个 bash 脚本,因此您可以根据需要进一步深入研究。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。