摘要: 在训练大模型的过程中,我们经常会遇见多机多卡的应用场景。大多数情况下,我们直接购买k8s服务或者使用hpc服务,我们不需要具体配置某些节点的信息。比如使用slurm,我们把sbatch命令整理好了提交就ok,至于节点可以在组建slurm网络的时候配置。基本上不会遇到需要自行配置ssh无密码连接的场景 阅读全文
posted @ 2024-01-03 09:59 单亚林 阅读(9) 评论(0) 推荐(0) 编辑