会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
赏月斋
慎终如始 宁静致远
博客园
首页
新随笔
联系
订阅
管理
2025年2月10日
大模型训练中的数据并行(DP)、流水线并行(PP)和模型并行(MP)
摘要: 基本数据并行(DP)在训练模型时,不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上,当模型参数超过 14 亿时,使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例,每个设备都要存储完整
阅读全文
posted @ 2025-02-10 15:26 stardsd
阅读(141)
评论(0)
推荐(0)
编辑
公告