SGE 节点处于E状态

SGE集群可能出现独列错误状态。此时,使用命令 qstat -f 检测集群队列队列状态。最后一列stats若为空,则表示队列状态正常,可以用于任务提交。其它状态解释如下:

a: 负载超限了,开启警报alarm。
A: 超限暂替,开启警报Alarm。
E: 队列有错误,不能提供任务提交服务了。
au:主机和SGE系统连接中断,此时负载状态为-NA-。需要重启相应服务器的sgeexecd命令。

当节点处于E状态时,需要使用root用户在对应的主机中重启sge计算服务:

/opt/sysoft/sge/default/common/sgeexecd restart

然后,清除队列中的错误信息:

qmod -c all.q




posted @ 2021-03-09 14:27  raisok  阅读(1459)  评论(0编辑  收藏  举报