2024 年 3月 25 日随笔档案 - deephub

2024年3月25日

摘要：训练大型语言模型(llm)，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(LoRA)等参数高效方法，可以在消费级gpu上对大量模型进行微调。 GaLore是一种新的方法，它不是通过直接减少参阅读全文

posted @ 2024-03-25 10:01 deephub 阅读(67) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告