大模型微调新思路：LoRA技术解析

大模型微调新思路：LoRA技术解析
LoRA，全称Low-Rank Adaptation，是一种用于大模型微调的新方法。它通过低秩分解来模拟参数的改变量，从而以极小的参数量实现大模型的间接训练。简单来说，LoRA就是在原模型旁边增加一个旁路，通过低秩分解来模拟参数的更新量。训练时，原模型保持固定，只训练降维矩阵A和升维矩阵B。推理时，可以将BA加到原参数上，从而实现适配下游任务。

LoRA的核心思想是通过低秩分解来模拟参数的改变量。具体来说，它在原模型旁边增加一个旁路，通过先降维再升维的方式来模拟参数的更新量。训练时，原模型保持固定，只训练降维矩阵A和升维矩阵B。推理时，可以将BA加到原参数上，从而实现适配下游任务。这种方法的优点在于，一个中心模型可以服务多个下游任务，节省参数存储量，推理阶段不引入额外计算量，与其他参数高效微调方法正交，可有效组合，训练任务比较稳定，效果好，可插拔，不引入额外的推理延时。

然而，LoRA也有一些缺点。如果将BA加到W上以消除推理延迟，则在一次forward中对不同任务的输入进行批处理是不太直接或者说不太方便的。当然了，如果不考虑推理延迟，则可以不合并权重，通过动态路由来为不同任务的样本选择相应的LoRA。

总的来说，LoRA是一种高效的大模型微调方法，具有很大的应用潜力。

posted on 2025-02-26 22:01 ExplorerMan 阅读(217) 评论(0) 收藏举报

刷新页面返回顶部

ExplorerMan

大模型微调新思路：LoRA技术解析

导航

公告