2025 年 2月 10 日随笔档案 - stardsd

2025年2月10日

摘要：基本数据并行（DP）在训练模型时，不会降低每个设备的内存占用。在当前配备 32GB 内存的 GPU 上，当模型参数超过 14 亿时，使用 DP 就会出现内存不足的情况。这是因为 DP 会在每个设备上复制完整的模型参数、梯度和优化器状态等模型状态数据。以一个参数规模较大的模型为例，每个设备都要存储完整阅读全文

posted @ 2025-02-10 15:26 stardsd 阅读(141) 评论(0) 推荐(0) 编辑

赏月斋

慎终如始宁静致远

公告

赏月斋

慎终如始 宁静致远

公告

慎终如始宁静致远