liu_shaobo

导航

 

 

1. 确保时钟、用户和组(UID GID)在集群中同步。

2. 安装MUNGE进行身份验证。确保集群中的所有节点都有相同的munge.key。在启动Slurm守护进程之前,请确保MUNGE守护进程munged已经启动。

3. 解压文件:

tar --bzip -x -f slurm*tar.bz2

4. cd到包含Slurm源代码的目录,并输入./configure和适当的选项,通常是--prefix=--sysconfdir=

5. 输入make来编译Slurm

6. 输入make install来安装程序、文档、库、头文件等。

7. 使用Web浏览器和Slurm配置工具构建一个配置文件。

注意:SlurmUser必须在启动Slurm之前存在,并且必须存在于集群的所有节点上。

注意Slurm的日志文件、进程ID文件、状态保存目录等的父目录不是由Slurm创建的。在启动Slurm守护进程之前,必须由SlurmUser根据需要创建,并让其可写。

注意:如果在安装过程中创建了任何父目录(用于可执行文件、库等),这些目录的访问权限将等于每个人的读//执行权限减去umask(例如umask=0022生成权限为"drwxr-r-x"的目录,mask=0000生成权限为"drwxrwrwx"的目录,这是一个安全问题)

8. 输入ldconfig -n <library_location>,这样直接使用Slurm API的应用程序就可以找到Slurm库。

9. <sysconfdir>/slurm.conf编辑配置文件。

注意:需要在集群的所有节点上安装这个配置文件。

10. systemd(可选):在每个系统上启用适当的服务:

  • 控制器:systemctl enable slurmctld
  • 数据库:systemctl enable slurmdbd
  • 计算节点:systemctl enable slurmd

11. 启动 slurmctld slurmd 守护进程。

posted on 2022-06-19 10:21  liu_shaobo  阅读(539)  评论(0编辑  收藏  举报