导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

DeepSeek 发布的推理模型 DeepSeek-R1不仅在多项推理基准测试中比肩 OpenAI 顶级模型 o1-1217,更令人惊叹的是,它的背后,是 纯粹的强化学习 (RL) 路线

DeepSeek 研究员 Daya Guo 的 “新年寄语”:见证大规模 RL 的魔力

DeepSeek 的核心研究员 Daya Guo 在社交媒体上发文,分享了他的激动心情:

https://x.com/Guodaya/status/1881327538104156659

“从 2025 年开始,DeepSeek-R1 正式发布! 我亲眼见证了 大规模强化学习 (RL) 的魔力。 快来体验 DeepSeek-R1, 尽情享受吧!”

寥寥数语,却蕴含着 DeepSeek 团队对 R1 的强大自信,以及对强化学习技术的深刻感悟。 DeepSeek-R1 的正式亮相,预示着 AI 推理模型的新纪元已经到来!

DeepSeek-R1-Zero:纯粹 RL 炼成的“推理奇迹”

要理解 DeepSeek-R1 的强大,我们首先要了解它的 “前身” —— DeepSeek-R1-Zero。

颠覆认知:无需监督微调,RL 也能打造强大推理能力

传统观点认为,要让大语言模型 (LLM) 具备强大的推理能力,监督微调 (SFT) 是必不可少的预备步骤。 就像给学生上课,先要用大量的标注数据“喂饱”模型,让它学习推理的 “套路”。

然而,DeepSeek-R1-Zero 却 打破了这个“定律”! 它 完全跳过了 SFT 阶段,直接在基础模型 DeepSeek-V3-Base 上应用 纯强化学习 (Pure RL) 进行训练。

这就像一个无需例题指导、纯靠“试错”自学成才的模型,正在突破机器推理的认知边界。

为什么要 “另辟蹊径”? 探索 RL 的无限潜力

DeepSeek 团队的 “野心” 很明显,他们想要探索: LLM 是否可以通过纯粹的自我学习 (RL),自主演化出强大的推理能力? 就像让孩子在实践中摸索,而不是照本宣科。

想象让一个没做过任何模拟题的学生直接走进考场 —— 这就是R1-Zero的诞生逻辑。研发团队进行了一场疯狂实验:

  • 零示范学习:不给任何解题范例,仅通过试错反馈(正确得分/错误扣分)引导模型

  • GRPO算法黑科技:让模型在小组解题竞赛中自我优化(后文详解)

GRPO 算法加持:高效 RL 训练的关键

为了实现高效的 RL 训练,DeepSeek-R1-Zero 采用了 GRPO (Group Relative Policy Optimization) 算法。 相比于传统的 PPO 算法,GRPO 无需训练价值模型 (Value Model),而是 通过组得分 (group scores) 估计基线,大大降低了计算成本,让大规模 RL 训练成为可能。

图解 GRPO 算法,秒懂 DeepSeek 的 “省钱秘籍”

为了更直观地理解 GRPO 的奥秘,我们下图来解读:

WechatIMG43

传统 PPO: 需要 策略模型 (Policy Model) 和 价值模型 (Value Model) 两个模型,价值模型用于评估状态价值,计算优势函数,引导策略模型更新。

创新 GRPO: 抛弃了价值模型, 策略模型为同一个问题 采样一组回答,利用这组回答的 奖励分数进行 “组计算”,直接估计优势函数,引导策略模型更新。

GRPO 的精髓在于:

没有对比就没有差距”。 它通过 同一组回答的相对好坏 来引导模型学习,就像 “拔河比赛”,不是看绝对力量,而是看在团队中的相对贡献。 这种方法 更高效,更节省计算资源,尤其适合训练参数量巨大的 LLM。

类比运作机制:

与传统PPO的单打独斗不同,GRPO让AI在小组内相对竞争:

  • 对每个问题生成5种解法(如不同数学证明路径)

  • 计算相对优势值:

  • 优先优化排名前20%的策略

范式跃迁

  • PPO:依赖绝对评估体系,适合明确奖励场景(如游戏得分)

  • GRPO:通过组内相对竞争,更适合开放域推理任务(如数学证明、代码生成)

GRPO的组机制模仿了人类同行评审过程——最优解不是绝对正确,而是在当前候选集中相对更优。这种设计让AI的推理能力首次突破了“标准答案”的局限,向真正的创造性思维迈进了一步。

R1-Zero 的“超能力”:推理能力自我觉醒!

经过数千步 RL 训练,DeepSeek-R1-Zero 展现出了惊人的推理能力:

  • AIME 2024 竞赛 Pass@1 成绩飙升: 从最初的 15.6% 跃升至 71.0%,多数投票后更是达到 86.7%,媲美 OpenAI o1-0912!

  • 能力 “自我演化”: 模型学会了 自我验证、反思,甚至能生成 更长的链式思考 (CoT), 自主探索更深层次的推理路径。 Daya Guo 所感受到的 “大规模强化学习的魔力”, 正是 R1-Zero 展现出的惊艳性能和自我进化潜力。

DeepSeek-R1:更实用、更强大的“推理大脑”

虽然 R1-Zero 取得了突破性进展,但它也存在一些问题,例如 可读性较差、语言混合 等。 为了解决这些问题,并进一步提升模型性能,DeepSeek 推出了 DeepSeek-R1。

“冷启动” + 多阶段训练:打造更完善的推理模型

DeepSeek-R1 在 R1-Zero 的基础上,进行了重大升级:

1、引入冷启动(Cold Start)

研发团队意识到:完全自由的探索效率太低。通过少量高质量数据初始化模型,规范输出格式。

收集 高质量、可读性强、语言一致 的链式思考 (CoT) 数据,对基础模型 DeepSeek-V3-Base 进行 监督微调 (SFT),为模型注入 “可读性” 和 “语言一致性” 的先验知识。

就像先让小孩描红练字(“打好基础”),再自由创作( “写字更漂亮、说话更流利”)。

2、强化学习2.0:引入"学科导师"

在冷启动微调的模型上,继续进行 强化学习 (RL) 训练, 重点提升模型在 推理密集型任务 (数学、编码、逻辑推理等) 上的能力。 并引入 语言一致性奖励,进一步解决语言混合问题。

类比:在基础训练后,AI进入进阶学习阶段,此时新增两类"监考老师":

老师类型 检查重点 惩罚措施
数学老师 最终答案是否正确 答案错误扣10分
语文老师 是否全程用中文/英文 每出现一个外文单词扣1分
逻辑老师 推理步骤是否连贯 跳步或矛盾扣5分

3、拒绝采样与监督微调(Rejection Sampling & SFT):AI的“错题本”与“学霸笔记”

以学生做题类比解释:

  • 拒绝采样:整理错题本,记录最佳解法

  • 监督微调:通过反复练习错题本,内化解题技巧

为什么需要这个阶段?

  • R1-Zero的教训:

    • 纯强化学习(RL)生成的推理过程杂乱无章

    • 缺乏结构化引导,导致语言混合、格式混乱

  • 拒绝采样+SFT的作用:

    • 规范化输出:强制模型按标准格式生成推理过程

    • 提升泛化能力:通过混合数据训练,避免过拟合

    • 加速收敛:提供高质量样本,减少无效探索

总结:AI学习的“错题本”哲学

  • 拒绝采样:筛选高质量样本,避免“垃圾进,垃圾出”

  • 监督微调:通过反复练习,内化解题套路

  • 最终目标:让AI从“直觉解题”升级为“系统思考”

正如一位学霸的成长离不开错题本的积累,AI的推理能力也依赖于高质量数据的引导与优化。

4、面向所有场景的强化学习:

对齐人类偏好(有用性、无害性),覆盖通用任务。为了不让AI变成"做题机器",最后阶段加入:

  • 10万条生活场景对话(点餐、写邮件等)

  • 5万条伦理判断题(如"能否帮用户破解密码")

  • 动态难度系统:简单题直接给答案,难题强制分步思考

R1 的训练流程总结

通过上面的改进,在探索自由度学习效率行为可控性之间找到动态平衡,产生了R1。

  • 冷启动 SFT:用规范数据初始化模型 → 解决可读性问题。

  • 推理导向 RL:引入语言奖励 → 解决语言混合。

  • 混合数据微调:提升通用能力 → 避免局部最优。

  • 全场景 RL:对齐人类偏好 → 综合性能优化。

关键改进对比

问题来源(R1-Zero) 改进措施(R1) 效果
无结构化输出引导 冷启动 SFT + 格式模板 推理过程清晰可读
语言混合 语言一致性奖励 + 冷启动数据约束 中英文分离,输出语言统一
局部最优陷阱 混合数据(推理 + 非推理)微调 模型泛化能力提升,支持多任务
奖励信号单一 多奖励整合(准确性、语言、无害性) 生成结果更符合人类偏好

通过以上改进,DeepSeek-R1 在保持强大推理能力的同时,解决了 R1-Zero 的缺陷,最终达到与 OpenAI-o1-1217 相当的综合性能力。

R1 性能全面升级:比肩 OpenAI 顶级模型

经过多阶段训练,DeepSeek-R1 性能得到全面提升:

  • 推理基准测试: 在 AIME 2024、MATH-500 等多个推理基准测试中, 比肩 OpenAI o1-1217!

  • 代码能力: 在 Codeforces 代码竞赛平台达到 2029 Elo 评分,超越 96.3% 的人类选手!

  • 知识问答: 在 MMLU、GPQA Diamond 等知识问答基准测试中, 显著超越 DeepSeek-V3, 展现出强大的知识理解和推理能力。

DeepSeek-R1 的未来走向:Daya Guo 传递信心

DeepSeek-R1 的正式发布,以及 Daya Guo 的 “新年寄语”, 都传递出 DeepSeek 团队对 RL 技术和 R1 未来发展的坚定信心。 我们可以预见:

强化学习 (RL) 将成为 AI 模型发展的重要驱动力:

DeepSeek-R1 的成功,再次证明了 RL 在提升 LLM 能力方面的巨大潜力, 未来 RL 技术将会在 AI 领域扮演越来越重要的角色。

DeepSeek 将持续探索 RL 的边界:

从 R1-Zero 到 R1, DeepSeek 不断突破传统认知, 探索 RL 的更多可能性。 未来他们或将继续深耕 RL 技术, 挑战更前沿、更硬核的 AI 难题。

更强大、更实用的 DeepSeek-R1 值得期待:

DeepSeek 团队已经展现出强大的技术迭代能力, 相信在 RL 技术的驱动下, 未来的 DeepSeek-R1 将会更加强大、更加完善, 为用户带来更出色的 AI 体验。

结语:RL 驱动 AI 未来

DeepSeek-R1-Zero 和 DeepSeek-R1 的发布,是 DeepSeek 团队献给 AI 社区的一份厚礼, 也预示着 强化学习 (RL) 驱动的 AI 新时代已经到来。

当我们教会AI如何组织自己的思维时,它展现出的不是更强的算力,而是更接近人类的认知弹性 —— 这才是通用智能的真正曙光。

相关博文:
阅读排行:
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
历史上的今天:
2016-02-05 Go Mobile 例子 basic 源码分析
点击右上角即可分享
微信分享提示