10 2023 档案

16GB显卡推理80G大模型

摘要：最近看到一篇推文是在不量化、不损失精度的情况下使用一张16G的显卡推理70B的大模型。方案来自于kaggle的一个方案，具体流程为： 1.创建一个空的（例如，没有权重的）模型 2.决定每一层将要去哪里（当有多个设备可用时） 3.在内存中加载其权重的一部分 4.在空模型中加载这些权重 5.将权重移动到阅读全文

posted @ 2023-10-19 14:20 sunshine丶23 阅读(536) 评论(0) 推荐(0) 编辑