slurm作业提交系统常用命令
写下自己的关于slurm感悟一二
与各人pc不同,slurm的基本架构是,一个中专节点,之后有很多局域网ip对应不同的计算节点,在中专节点敲命令,命令中可以指定需要用到哪些计算节点
1. 查看有哪些分区 sinfo命令
2. 指定节点跑程序srun,比如这里我有一个run.py的文件,是print(1)
slurm最基本的命令是srun,比如上面一行是指定-p分区,-w节点名称运行一个run.py的文件,当然还有更高级的,指定gpu的数量和指定进程的数量
比如上面的命令,--gres=gpu:8表示每个节点上用几个gpu,-n表示有多少个进程,一般多线程的时候,用到多卡的时候会这么操作
3. 查看自己任务的run的情况,squeue -u +用户
比如上图,我运行了ipython命令,然后我用squeue -u +我的用户名,查看了一下我的任务占据的节点的名称,分区jobid等等,这个命令的主要作用还是有时候机器用完的时候,排队用机器,看看排队情况,或者是不指定节点名称的时候(刚刚我们说的-w指定节点名称,实际上也可以不指定,这个时候slurm系统自动分配),看看节点名称是多少,方便后续操作
4. 查看gpu使用情况
swatch +节点名称+nv
因为放到了cuda里面,确实占用一定的显存
查看cpu:swatch+节点名称+top
查看内存:swatch+节点名称+free
查看内存或者是gpu的使用的时候,可以使多个节点一起看,中间用逗号隔开即可
posted on 2019-03-24 18:03 YongjieShi 阅读(11417) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?