2024 年 3月 19 日随笔档案 - deephub

2024年3月19日

摘要： Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。这时我们就想到了QLoRA，它将模型大小除以4，同时通过仅调整LoRA适配阅读全文

posted @ 2024-03-19 09:38 deephub 阅读(68) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告