集群管理系统slurm:
1,平行计算机粘合剂,用于执行并行作业
2,它使得并行计算就像pc一样简单实用
3,通常用来管理并行程序之间的通信
slurm设计框架:
1,为集群提供简单的资源管理
2,通过插件完成功能强大的祖业调度器
3,由c语言编写,对管理员友好
常用的操作组件:
资源管理器:通过使用集群来管理资源
1,节点
1),节点根据ip地址进行节点划分
2),节点之间使用 sockets进行通信,核心是使用超线程
3),节点之间互相关联,并且共用资源
4),节点具有缓存功能
作业调度器(scheduler):当作业很多,作业调度器管理作业队列
1),支持复杂的调度算法,对于网络拓扑结构可以共享调度去调度
2),可以进行资源限制,作业之间可以互相调度
插件(plugins):
1,有的插件支持mysql,postgresql存储
slurmctld: 中央控制器通常每个集群一个
1, 如果出现故障可以自动备份(可选)
2, 监控资源状态
3, 分配资源
slurmd: 守护进程,安装在每一个计算节点之上
1, 启动和管理任务
2, 需要很少的内存和CPU时间片
3, 支持具有可配置的分层通信
slurmdbd: 守护进程 一个项目需要一个就可以
1,存储备份信息
系统命令:
sinfo 查看系统状态(节点,队列信息)
squeue 查看作业和作业步骤状态
scontrol 管理员工具用来更新或者查看 系统,作业或者预留状态