liu_shaobo

导航

 


    Slurm节点管理的配置在/etc/slurm.conf文件中指定,更改节点配置(例如添加节点、更改处理器数量等)需要重新启动slurmctld守护进程和slurmd守护进程。所有slurmd守护进程必须知道系统中的每个节点,才能转发消息以支持分层通信。注册到系统的节点的资源少于配置的资源(例如内存太少)的节点将被置于“DOWN”状态,以避免在它们上调度作业,节点注册时检查的资源有:CPU、RealMemory和TmpDisk。

 

节点配置参数

NodeName
Slurm用来指定节点的名称。通常这是“/bin/hostname -s”返回的字符串。或通过/etc/hosts或DNS与主机关联的任何有效域名。多个节点名可以用逗号分隔(例如:"alpha,beta,gamma"),或使用一个简单的节点范围(例如“linux[000-100]”)。

Boards
节点中的主板数量。当指定Boards时,应指定SocketsPerBoard、CoresPerSocket和ThreadsPerCore。默认值为1。

CoresPerSocket
单个物理处理器Socket中的核心数(例如:“2”)。CoresPerSocket描述的是物理核,而不是每个Socket的逻辑处理器。

CPUs
节点上逻辑处理器的数量(例如:“2”)。当希望只调度超线程节点上的核心时,这很有用。如果省略了CPUs,则其默认值将被设置为Boards、Sockets、CoresPerSocket和ThreadsPerCore的乘积。

Features
与节点关联的某些特征。所需的特性可能包含一个数字组件,例如,表示处理器速度,缺省情况下,节点没有特性。

Gres
通用资源规范的逗号分隔列表。格式为:“<name>[:<type>][:no_consume]:<number>[K|M|G],默认情况下,节点没有通用资源。
(例如“Gres=gpu:tesla:1,bandwidth:lustre:no_consume:4G”)。

RealMemory
节点实际内存的大小,以megabytes为单位。(例如“2048”)。默认值为1。如果在SelectTypeParameters中将Memory设置为可消耗的资源。

Reason
标识节点处于“DOWN”、“DRAINED”、“DRAINING”、“FAIL”或“FAILING”状态的原因。

Sockets
节点上的物理处理器sockets/chips的数量(例如:“2”)。如果Sockets被省略,将从CPU、CoresPerSocket和ThreadsPerCore中进行推断。

SocketsPerBoard
主板上的物理处理器sockets/chips的数量。Sockets和SocketsPerBoard是互斥的。默认值为1。

State
节点状态。可接受的值为CLOUD、DOWN、DRAIN、FAIL、FAILING、FUTURE和UNKNOWN,默认值为UNKNOWN。

ThreadsPerCore
单个物理核中的逻辑线程数(例如:“2”)。如果系统为每个核配置了多个线程,默认值为1。

TmpDisk
TmpFS中临时磁盘存储的总大小,以megabytes为单位。(例如“16384”)。TmpFS(表示“临时文件系统”)标识作业应该用于临时存储的位置。默认值为0。

 

posted on 2022-05-02 09:51  liu_shaobo  阅读(2084)  评论(0编辑  收藏  举报