聊聊DeepSeek的MLA和GRPO
关注公众号回复1
获取一线、总监、高管《管理秘籍》
结合近期对DeepSeek的探索,对之前文章的内容做一些更新,主要是两个方面:训练过程的优化策略GRPO,以及架构侧的一个创新MLA。
MLA
MLA,被认为是实现DeepSeek高效推理和低成本训练的核心技术。
MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本和显存占用;
MLA(多头潜在注意力)则通过低秩压缩优化键值矩阵,降低显存占用并提高推理效率。
我知道各位读不懂,这种偏底层机制,对应用层来说也没必要懂,但其策略原理是需要学习的,所以这里用产品语言进行介绍。
苹果作为一种普通的水果,我们对它的认知通常包括几个最重要的特征:
- 颜色:红色、绿色或黄色
- 口感:甜的或酸的
- 形状:圆形
- 用途:可以食用或做成果汁
这些是我们最常提到的苹果的基本特征,它们构成了我们对苹果的核心认知。
MHA:传统的全面分析
MHA就是我们在分析苹果时,全面地考虑所有可能的特征,不仅仅是颜色、口感和形状,还可能包括苹果的品种、产地、种子类型等详细信息。
在这个过程中,每个特征都会被单独处理。比如,有一个“颜色头”专注于苹果的颜色,另一个“口感头”专注于苹果的味道,等等。这些“头”并行工作,从不同角度抓取信息。
但这里问题也就出现了:虽然这个方法非常全面,可以捕捉到所有细节,但它也非常耗费资源。
就像我们在吃苹果时,不仅仅关心它的味道和形状,可能还会考虑苹果的种子、品种等,结果就会浪费很多时间和精力。
对于大规模的计算任务来说,这样的处理方式会导致计算成本和内存占用过高。
MLA:精简且高效的分析
MLA则不一样,他会更接近于人类的思维:对苹果的分析更加高效、精简。我们还是关注最核心的特征(比如颜色、口感和形状),但不再去详细分析那些不常用的特征(比如种子类型、品种等)。
MLA通过“低秩压缩”来优化这个过程,相当于精简和压缩信息,使得我们只存储和计算最重要的部分,而忽略那些次要信息。
这样,当我们吃苹果时,只关心最关键的体验,比如味道和颜色,而不需要过多关注种子或产地等。
这种方式让推理变得更快、更高效,而且显存占用更少,就像我们吃苹果时,如果只关心味道和形状,而不是去研究每个细节,体验感更好,且效率大大提高。
信息分级
可以认为MLA是更加贴近人类思考和基本认知方式的机制。
我们大脑在处理信息时,通常会把信息按照重要性进行分级,这样做是为了在处理大量信息时,能够高效地抓住最核心的部分。
例如,当我们认知“苹果”时,我们首先关注的是它的颜色、口感、形状这些关键信息,而不会去细究种子类型、产地等不那么关键的细节。
MLA机制的核心思想与此类似:它通过信息分级的方式,优先保留最关键的特征,忽略不那么重要的细节,从而提高推理效率。
信息分级是通过对输入数据进行分析和训练来自动完成的。
MLA机制通过算法和模型设计,识别出哪些特征是在当前任务中最重要的,哪些是次要的,并将它们分为不同的层级:
- 第一层级是最重要的特征,比如苹果的颜色、口感、形状;这些是最常被提及、最常用于分类和判断的信息。
- 第二层级是次要信息,比如苹果的产地、种子类型等,这些信息可能在某些特殊情况下有用,但并不会常常被用到。
- 第三层级则是最不重要的信息,例如苹果的历史背景,这些信息在大多数情况下并不会影响我们的决策。
通过这种信息分级,MLA能够让模型只关注最关键的部分,避免对不必要的细节进行计算,从而减少计算资源和内存占用。
所以,实现MLA的难度非常高。这不仅仅是一个算法层面的挑战,它还涉及到如何有效地在训练过程中动态地进行信息分级,
MLA的局限性
虽然MLA在推理和训练中的效率提升是显而易见的,但它也有一定的局限性。
因为MLA的核心是通过信息分级进行优化,所以它只关注最关键的特征,忽略了很多细节。
这就像是你在学习一篇文章时,只背诵了关键章节,而没有记住整篇文章的所有细节。
相比之下,传统的MHA(多头注意力)就像是全文背诵。MHA会处理所有细节,不遗漏任何信息,虽然这样计算开销大,但它能确保更全面的推理,避免遗漏任何可能重要的信息。
因此,MLA的上限可能会比MHA低,因为它的目标是高效处理最关键的部分,但它可能会错过一些细节,导致在某些复杂任务或细节要求较高的场景中,性能不如MHA。
GRPO
DeepSeek-R1-Zero使用GRPO来进行基础推理能力的训练,而DeepSeek-R1则通过冷启动、面向推理的强化学习等手段,进一步强化了推理能力,并对模型的生成结果进行筛选和微调,确保模型输出更符合人类偏好。
所以,模型训练有很多路径,但每条路径的最终验证都需要白花花的银子,所以理论上的最优路径很可能胎死腹中。
一般的公司也确实玩不起这一套,他们依赖的最优技术路径一直是基于成本最优作为考量。
DeepSeek-R1的成功就是其中一条路径的验证,现在甚至成了新的模型训练范式,过程中有两点需要注意:
- 跳过微调环节,直接启用强化学习(GRPO框架);
- 通过模型蒸馏技术直接将推理模式也转移到小模型中,这会让小模型的推理能力直线上升;
GRPO
这里重点介绍下GRPO:一种强化学习算法,它专注于通过组内相对策略优化来降低训练成本,尤其是在模型推理任务中,GRPO能够显著提升模型的学习效率和稳定性。
在DeepSeek-R1中,通过在“组”内部估算基线来优化策略。具体来说,GRPO通过对多个策略进行比较,来决定如何在没有明确标签数据的情况下优化推理策略:
- 准确性奖励:评估模型在数学题目、代码编译等任务中的准确性。通过正向奖励鼓励模型生成正确的答案。
- 格式奖励:引导模型在生成推理过程时,将思考过程放置在标签内(如<think>标签),促使模型更清晰地展示推理步骤。
- 自进化奖励:GRPO使得DeepSeek-R1能够自主学习和调整推理策略,不仅提高了准确率,还提升了模型在复杂推理任务中的适应性。
数学题
为了帮助各位更好的理解GRPO,依旧使用产品语言进行介绍:
预训练就像是学习整本数学教材,掌握所有的数学知识和基本解题方法。
在这个阶段,我们并不专注于解决具体的问题,而是广泛地吸收各种数学概念、公式和定理,确保我们对所有可能用到的知识都有一个全面的理解。这一过程为后续的实际应用奠定了基础。
微调就像是做试卷,通过不断做题来应用已学的知识,熟悉不同题型并提高解题速度和准确性。
在微调阶段,我们不再只是学习基本概念,而是开始针对特定的题型进行训练,进一步熟悉如何运用已有的知识来解决具体的问题。
GRPO与前面的两者不同,它不仅关注解题的最终结果(即正确与否),更重要的是它强调解题的过程。
GRPO的核心目标是在做题的过程中不断反思,调整解题步骤,通过反馈优化整个解题策略,从而在下一道题上能表现得更加高效和准确:
反馈和自我优化:就像做数学题时,我们不仅关注答案是否正确,更重要的是要反思自己的解题过程。
例如,如果我们发现某个步骤过于繁琐或者耗时过长,我们会在下一次做类似的题目时尝试改进方法。
通过不断的反馈和优化,我们逐渐找到了更简洁、高效的解题方式。
在模型训练中:GRPO在强化学习中扮演着类似的角色。
它通过策略优化来提升模型的推理能力,但不仅仅是通过对最终答案的正确与否进行奖励,GRPO还关注模型如何得出答案的过程。
在这个过程中,模型通过不断“尝试-反馈”来改进推理步骤,并通过群体内的比较和优化,找到最优的推理路径。这就像是你在做数学题时,通过不断调整解题步骤,确保不仅最终的答案正确,而且解题过程也高效且清晰。
假设你在做一道数学题,传统的强化学习可能会直接给你一个奖励,告诉你答案是否正确,而GRPO则会根据你在解题过程中所使用的步骤、思考方式等提供反馈。
比如,如果你的某一步骤不够高效,GRPO会提醒你如何改进这个步骤,从而在下次做类似的题目时,能够更迅速地找到解决方案。
结语
MLA和GRPO是DeepSeek两项核心技术创新,他们是实现高效推理与低成本训练的重要组成,为AI领域的技术进步提供了新的思路。
MLA通过低秩压缩和信息分级机制,显著降低了计算和内存消耗,同时保持了高效的推理能力,克服了传统MHA在大规模任务中的资源瓶颈。
而GRPO则通过强化学习中的策略优化,专注于推理过程的自我迭代与优化,不仅提升了模型的学习效率,还增强了其在复杂任务中的适应性和稳定性。
尽管MLA和GRPO在提升效率和降低成本方面表现出色,我们也需要认识到它们的局限性。
例如,MLA在信息分级过程中可能会忽略一些细节,导致在需要全面上下文信息的任务中表现不如MHA;
而GRPO跳过微调环节直接启用强化学习,虽然提升了训练效率,但在某些特定任务上可能需要额外的调整以确保稳定性。
未来,如何在高效推理与全面性能之间进一步权衡,将是DeepSeek及其他AI模型持续优化的关键方向。

【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· DeepSeek R1 简明指南:架构、训练、本地部署及硬件要求
· NetPad:一个.NET开源、跨平台的C#编辑器