Loading

摘要: 在超算系统上运行MXNet分布式训练任务时,面临着一个IP地址相关的问题。我们在提交MXNet的分布式任务时,需要知道各个GPU节点的IP地址,把这些IP地址放到一个hosts文件中,以供分布式训练使用。因此,一种常用的方式是先使用salloc或yhalloc申请若干节点,然后依次登录这些节点,查询 阅读全文
posted @ 2021-03-14 18:16 shuo-ouyang 阅读(1374) 评论(0) 推荐(0) 编辑