聊聊DeepSeek的MLA和GRPO

关注公众号回复1

获取一线、总监、高管《管理秘籍》

结合近期对DeepSeek的探索,对之前文章的内容做一些更新,主要是两个方面:训练过程的优化策略GRPO,以及架构侧的一个创新MLA

MLA

MLA,被认为是实现DeepSeek高效推理和低成本训练的核心技术。

MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本和显存占用;

MLA(多头潜在注意力)则通过低秩压缩优化键值矩阵,降低显存占用并提高推理效率。

我知道各位读不懂,这种偏底层机制,对应用层来说也没必要懂,但其策略原理是需要学习的,所以这里用产品语言进行介绍。

苹果作为一种普通的水果,我们对它的认知通常包括几个最重要的特征:

  1. 颜色:红色、绿色或黄色
  2. 口感:甜的或酸的
  3. 形状:圆形
  4. 用途:可以食用或做成果汁

这些是我们最常提到的苹果的基本特征,它们构成了我们对苹果的核心认知。

MHA:传统的全面分析

MHA就是我们在分析苹果时,全面地考虑所有可能的特征,不仅仅是颜色、口感和形状,还可能包括苹果的品种、产地、种子类型等详细信息。

在这个过程中,每个特征都会被单独处理。比如,有一个“颜色头”专注于苹果的颜色,另一个“口感头”专注于苹果的味道,等等。这些“头”并行工作,从不同角度抓取信息。

但这里问题也就出现了:虽然这个方法非常全面,可以捕捉到所有细节,但它也非常耗费资源。

就像我们在吃苹果时,不仅仅关心它的味道和形状,可能还会考虑苹果的种子、品种等,结果就会浪费很多时间和精力。

对于大规模的计算任务来说,这样的处理方式会导致计算成本和内存占用过高。

MLA:精简且高效的分析

MLA则不一样,他会更接近于人类的思维:对苹果的分析更加高效、精简。我们还是关注最核心的特征(比如颜色、口感和形状),但不再去详细分析那些不常用的特征(比如种子类型、品种等)。

MLA通过“低秩压缩”来优化这个过程,相当于精简和压缩信息,使得我们只存储和计算最重要的部分,而忽略那些次要信息。

这样,当我们吃苹果时,只关心最关键的体验,比如味道和颜色,而不需要过多关注种子或产地等。

这种方式让推理变得更快、更高效,而且显存占用更少,就像我们吃苹果时,如果只关心味道和形状,而不是去研究每个细节,体验感更好,且效率大大提高。

信息分级

可以认为MLA是更加贴近人类思考和基本认知方式的机制。

我们大脑在处理信息时,通常会把信息按照重要性进行分级,这样做是为了在处理大量信息时,能够高效地抓住最核心的部分。

例如,当我们认知“苹果”时,我们首先关注的是它的颜色、口感、形状这些关键信息,而不会去细究种子类型、产地等不那么关键的细节。

MLA机制的核心思想与此类似:它通过信息分级的方式,优先保留最关键的特征,忽略不那么重要的细节,从而提高推理效率。

信息分级是通过对输入数据进行分析和训练来自动完成的。

MLA机制通过算法和模型设计,识别出哪些特征是在当前任务中最重要的,哪些是次要的,并将它们分为不同的层级:

  1. 第一层级是最重要的特征,比如苹果的颜色、口感、形状;这些是最常被提及、最常用于分类和判断的信息。
  2. 第二层级是次要信息,比如苹果的产地、种子类型等,这些信息可能在某些特殊情况下有用,但并不会常常被用到。
  3. 第三层级则是最不重要的信息,例如苹果的历史背景,这些信息在大多数情况下并不会影响我们的决策。

通过这种信息分级,MLA能够让模型只关注最关键的部分,避免对不必要的细节进行计算,从而减少计算资源和内存占用。

所以,实现MLA的难度非常高。这不仅仅是一个算法层面的挑战,它还涉及到如何有效地在训练过程中动态地进行信息分级,

MLA的局限性

虽然MLA在推理和训练中的效率提升是显而易见的,但它也有一定的局限性。

因为MLA的核心是通过信息分级进行优化,所以它只关注最关键的特征,忽略了很多细节。

这就像是你在学习一篇文章时,只背诵了关键章节,而没有记住整篇文章的所有细节。

相比之下,传统的MHA(多头注意力)就像是全文背诵。MHA会处理所有细节,不遗漏任何信息,虽然这样计算开销大,但它能确保更全面的推理,避免遗漏任何可能重要的信息。

因此,MLA的上限可能会比MHA低,因为它的目标是高效处理最关键的部分,但它可能会错过一些细节,导致在某些复杂任务或细节要求较高的场景中,性能不如MHA。

GRPO

DeepSeek-R1-Zero使用GRPO来进行基础推理能力的训练,而DeepSeek-R1则通过冷启动、面向推理的强化学习等手段,进一步强化了推理能力,并对模型的生成结果进行筛选和微调,确保模型输出更符合人类偏好。

所以,模型训练有很多路径,但每条路径的最终验证都需要白花花的银子,所以理论上的最优路径很可能胎死腹中。

一般的公司也确实玩不起这一套,他们依赖的最优技术路径一直是基于成本最优作为考量。

DeepSeek-R1的成功就是其中一条路径的验证,现在甚至成了新的模型训练范式,过程中有两点需要注意:

  1. 跳过微调环节,直接启用强化学习(GRPO框架);
  2. 通过模型蒸馏技术直接将推理模式也转移到小模型中,这会让小模型的推理能力直线上升;

GRPO

这里重点介绍下GRPO:一种强化学习算法,它专注于通过组内相对策略优化来降低训练成本,尤其是在模型推理任务中,GRPO能够显著提升模型的学习效率和稳定性。

在DeepSeek-R1中,通过在“组”内部估算基线来优化策略。具体来说,GRPO通过对多个策略进行比较,来决定如何在没有明确标签数据的情况下优化推理策略:

  1. 准确性奖励:评估模型在数学题目、代码编译等任务中的准确性。通过正向奖励鼓励模型生成正确的答案。
  2. 格式奖励:引导模型在生成推理过程时,将思考过程放置在标签内(如<think>标签),促使模型更清晰地展示推理步骤。
  3. 自进化奖励:GRPO使得DeepSeek-R1能够自主学习和调整推理策略,不仅提高了准确率,还提升了模型在复杂推理任务中的适应性。

数学题

为了帮助各位更好的理解GRPO,依旧使用产品语言进行介绍:

预训练就像是学习整本数学教材,掌握所有的数学知识和基本解题方法。

在这个阶段,我们并不专注于解决具体的问题,而是广泛地吸收各种数学概念、公式和定理,确保我们对所有可能用到的知识都有一个全面的理解。这一过程为后续的实际应用奠定了基础。

微调就像是做试卷,通过不断做题来应用已学的知识,熟悉不同题型并提高解题速度和准确性。

在微调阶段,我们不再只是学习基本概念,而是开始针对特定的题型进行训练,进一步熟悉如何运用已有的知识来解决具体的问题。

GRPO与前面的两者不同,它不仅关注解题的最终结果(即正确与否),更重要的是它强调解题的过程。

GRPO的核心目标是在做题的过程中不断反思,调整解题步骤,通过反馈优化整个解题策略,从而在下一道题上能表现得更加高效和准确:

反馈和自我优化:就像做数学题时,我们不仅关注答案是否正确,更重要的是要反思自己的解题过程。

例如,如果我们发现某个步骤过于繁琐或者耗时过长,我们会在下一次做类似的题目时尝试改进方法。

通过不断的反馈和优化,我们逐渐找到了更简洁、高效的解题方式。

在模型训练中:GRPO在强化学习中扮演着类似的角色。

它通过策略优化来提升模型的推理能力,但不仅仅是通过对最终答案的正确与否进行奖励,GRPO还关注模型如何得出答案的过程。

在这个过程中,模型通过不断“尝试-反馈”来改进推理步骤,并通过群体内的比较和优化,找到最优的推理路径。这就像是你在做数学题时,通过不断调整解题步骤,确保不仅最终的答案正确,而且解题过程也高效且清晰。

假设你在做一道数学题,传统的强化学习可能会直接给你一个奖励,告诉你答案是否正确,而GRPO则会根据你在解题过程中所使用的步骤、思考方式等提供反馈。

比如,如果你的某一步骤不够高效,GRPO会提醒你如何改进这个步骤,从而在下次做类似的题目时,能够更迅速地找到解决方案。

结语

MLA和GRPO是DeepSeek两项核心技术创新,他们是实现高效推理与低成本训练的重要组成,为AI领域的技术进步提供了新的思路。

MLA通过低秩压缩和信息分级机制,显著降低了计算和内存消耗,同时保持了高效的推理能力,克服了传统MHA在大规模任务中的资源瓶颈。

而GRPO则通过强化学习中的策略优化,专注于推理过程的自我迭代与优化,不仅提升了模型的学习效率,还增强了其在复杂任务中的适应性和稳定性。

尽管MLA和GRPO在提升效率和降低成本方面表现出色,我们也需要认识到它们的局限性。

例如,MLA在信息分级过程中可能会忽略一些细节,导致在需要全面上下文信息的任务中表现不如MHA;

而GRPO跳过微调环节直接启用强化学习,虽然提升了训练效率,但在某些特定任务上可能需要额外的调整以确保稳定性。

未来,如何在高效推理与全面性能之间进一步权衡,将是DeepSeek及其他AI模型持续优化的关键方向。

posted on   叶小钗  阅读(259)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· DeepSeek R1 简明指南:架构、训练、本地部署及硬件要求
· NetPad:一个.NET开源、跨平台的C#编辑器
< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示