摘要: 大模型微调需要多少GPU显存? 如:微调 1B 模型,16bit = 2byte 全量微调 显存占用分为: model weight(参数本身):10亿(bit) = 20亿(byte)约等于2GB 训练模型时,通过一系列反向传播的方法,来更新模型参数,涉及以下gradient​和optimizer 阅读全文
posted @ 2024-06-21 00:11 PamShao 阅读(2043) 评论(0) 推荐(0) 编辑