1. 确保时钟、用户和组(UID 和 GID)在集群中同步。
2. 安装MUNGE进行身份验证。确保集群中的所有节点都有相同的munge.key。在启动Slurm守护进程之前,请确保MUNGE守护进程munged已经启动。
3. 解压文件:
tar --bzip -x -f slurm*tar.bz2
4. cd到包含Slurm源代码的目录,并输入./configure和适当的选项,通常是--prefix=和--sysconfdir=
5. 输入make来编译Slurm。
6. 输入make install来安装程序、文档、库、头文件等。
7. 使用Web浏览器和Slurm配置工具构建一个配置文件。
注意:SlurmUser必须在启动Slurm之前存在,并且必须存在于集群的所有节点上。
注意:Slurm的日志文件、进程ID文件、状态保存目录等的父目录不是由Slurm创建的。在启动Slurm守护进程之前,必须由SlurmUser根据需要创建,并让其可写。
注意:如果在安装过程中创建了任何父目录(用于可执行文件、库等),这些目录的访问权限将等于每个人的读/写/执行权限减去umask值(例如umask=0022生成权限为"drwxr-r-x"的目录,mask=0000生成权限为"drwxrwrwx"的目录,这是一个安全问题)。
8. 输入ldconfig -n <library_location>,这样直接使用Slurm API的应用程序就可以找到Slurm库。
9. 在<sysconfdir>/slurm.conf中编辑配置文件。
注意:需要在集群的所有节点上安装这个配置文件。
10. systemd(可选):在每个系统上启用适当的服务:
- 控制器:systemctl enable slurmctld
- 数据库:systemctl enable slurmdbd
- 计算节点:systemctl enable slurmd
11. 启动 slurmctld 和 slurmd 守护进程。