会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
MegEngine
博客园
首页
新随笔
联系
订阅
管理
2021年8月9日
利用共享内存实现比NCCL更快的集合通信
摘要: 作者:曹彬 | 旷视 MegEngine 架构师 简介 从 2080Ti 这一代显卡开始,所有的民用游戏卡都取消了 P2P copy,导致训练速度显著的变慢。针对这种情况下的单机多卡训练,MegEngine 中实现了更快的集合通信算法,对多个不同的网络训练相对于 NCCL 有 3% 到 10% 的加
阅读全文
posted @ 2021-08-09 11:25 MegEngine
阅读(486)
评论(0)
推荐(0)
编辑
公告