2023 年 5月 18 日随笔档案 - deephub

2023年5月18日

摘要：对于大型模型来说，重新训练所有模型参数的全微调变得不可行。比如GPT-3 175B，模型包含175B个参数吗，无论是微调训练和模型部署，都是不可能的事。所以Microsoft 提出了低秩自适应(Low-Rank Adaptation, LoRA)，它冻结了预先训练好的模型权重，并将可训练的秩的分解矩阅读全文

posted @ 2023-05-18 09:53 deephub 阅读(181) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告