摘要: 最近看到一篇推文是在不量化、不损失精度的情况下使用一张16G的显卡推理70B的大模型。方案来自于kaggle的一个方案,具体流程为: 1.创建一个空的(例如,没有权重的)模型 2.决定每一层将要去哪里(当有多个设备可用时) 3.在内存中加载其权重的一部分 4.在空模型中加载这些权重 5.将权重移动到 阅读全文
posted @ 2023-10-19 14:20 sunshine丶23 阅读(402) 评论(0) 推荐(0) 编辑