slurm

查看作业状态

查看当前用户的作业状态,可以使用如下命令:

squeue

例如:

JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
33762    normal  nstest1   wangwu  R       0:03      2 h05r4n[15-16]

参数说明:

关键词 含义
JOBID job的id号,每个成功提交的任务都会有唯一的id
PARTITION 计算分区名
NAME 任务名,默认以提交脚本的名称当作任务名
USER 用户名,提交该任务的用户名
ST 任务状态:PD排队;R运行;S挂起;CG正在退出
TIME 任务运行时间
NODES 任务作占节点数,例子中为2个
NODELIST(REASON) 任务所占节点列表,如果是排队状态的任务,则会给出排队原因

备注:常见排队原因:

  • AssociationResourceLimit:关联的资源限制已满 — 账户有使用节点数限制,已经用满了。
  • Resources:当前可用资源不能满足作业需求 — 系统的可用节点资源不足
  • Dependency:作业的依赖关系未满足 — 作业之间有依赖关系,依赖的作业没完成
  • PartitionDown:作业所在的分区处于 down 状态 — 分区down,所以节点不可用。

取消作业

如果提交作业后,发现有些输入文件参数设置错了,或者其他原因想停止这个作业,可以先使用squeue找到该作业的id号,如100001,然后使用如下命令杀掉任务:

scancel 100001
posted @ 2021-08-25 12:15  赶紧学习  阅读(935)  评论(0编辑  收藏  举报