会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Loading
Shuo Ouyang's Blog
博客园
首页
新随笔
订阅
管理
2021年3月14日
在超算系统上使用sbatch提交MXNet分布式训练任务
摘要: 在超算系统上运行MXNet分布式训练任务时,面临着一个IP地址相关的问题。我们在提交MXNet的分布式任务时,需要知道各个GPU节点的IP地址,把这些IP地址放到一个hosts文件中,以供分布式训练使用。因此,一种常用的方式是先使用salloc或yhalloc申请若干节点,然后依次登录这些节点,查询
阅读全文
posted @ 2021-03-14 18:16 shuo-ouyang
阅读(1374)
评论(0)
推荐(0)
编辑
公告