2023 年 6月 2 日随笔档案 - deephub

2023年6月2日

摘要：大多数大型语言模型(LLM)都无法在消费者硬件上进行微调。例如，650亿个参数模型需要超过780 Gb的GPU内存。这相当于10个A100 80gb的gpu。就算我们使用云服务器，花费的开销也不是所有人都能够承担的。而QLoRa (Dettmers et al.， 2023)，只需使用一个A100 阅读全文

posted @ 2023-06-02 09:25 deephub 阅读(127) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告