会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
boke626
博客园
首页
新随笔
联系
订阅
管理
2024年12月10日
模型并行-Megatron-LM
摘要: 1.原理 针对transformer模型的模型并行方法,利用矩阵乘法的特性,将每个层切开,放入不同GPU中。 对于注意力层,是按注意力头进行切分; 对于MLP层,是按矩阵列进行切分。整个执行流程中,每个层的需要进行数据通信,因为对于矩阵切分后的乘法要得到最终的结果需要每个分块的结果进行矩阵加。 2.
阅读全文
posted @ 2024-12-10 12:52 博客员626
阅读(13)
评论(0)
推荐(0)
编辑
公告