语言模型资料

token生成

强化学习

以下是 基于kimi的一些问答, 注意部分公式符号和论文是对不上的。


在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,surrogate一词主要出现在对强化学习(Reinforcement Learning, RL)算法的讨论中,特别是与Proximal Policy Optimization(PPO)相关的内容。

在论文中的具体含义

在PPO算法中,surrogate objective(替代目标函数)是一个用于优化策略模型的关键函数。它通过最大化这个替代目标来更新策略模型,从而提高模型在特定任务上的表现。具体来说,PPO算法的替代目标函数定义为:

Jθ(θ)=Eiπθ(A),oπθ(A|i)[1|o|j=1|o|min(πθ(oj|i,o<j)πθ(oj|i,o<j)Aj,clip(πθ(oj|i,o<j)πθ(oj|i,o<j),1ϵ,1+ϵ)Aj)]

其中:

  • πθπθ 分别是旧策略和新策略。
  • Aj 是优势函数(advantage),用于衡量某个动作相对于平均情况的好坏。
  • ϵ 是一个超参数,用于控制更新的幅度。

作用

替代目标函数的作用是通过优化策略模型,使其在给定的任务上获得更高的奖励。它通过以下方式实现:

  1. 减少更新的方差:通过引入优势函数 Aj,替代目标函数能够更有效地衡量动作的好坏,从而减少更新过程中的方差。
  2. 控制更新的幅度:通过clip操作,PPO算法限制了策略更新的幅度,避免了过大的更新导致策略不稳定。
  3. 提高训练的稳定性:替代目标函数的设计使得PPO算法在训练过程中更加稳定,能够更好地适应复杂的任务环境。

在论文中的应用

在论文中,作者提出了Group Relative Policy Optimization(GRPO),这是一种改进的PPO算法。GRPO通过放弃传统的critic模型,改用基于组分数的基线来估计优势函数,从而显著减少了训练资源的消耗。这种改进使得GRPO在数学推理任务中表现出色,尤其是在DeepSeekMath模型的强化学习阶段,GRPO显著提升了模型在多个数学基准测试中的表现。


在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,作者提出了Group Relative Policy Optimization (GRPO),这是一种改进的强化学习算法,用于优化语言模型的数学推理能力。GRPO的一个关键创新点是放弃了传统的价值函数模型(value model),转而通过组分数(group scores)来估计基线(baseline),从而显著减少了训练资源的消耗。

传统PPO中的价值函数模型

在传统的Proximal Policy Optimization (PPO)算法中,通常需要训练一个价值函数模型(value model)来估计每个状态的值函数(value function)。这个价值函数用于计算优势函数(advantage function),即某个动作相对于平均情况的优劣。具体来说,优势函数 A(s,a) 通常定义为:

A(s,a)=Q(s,a)V(s)

其中:

  • Q(s,a) 是状态-动作值函数,表示在状态 s 下采取动作 a 的期望回报。
  • V(s) 是状态值函数,表示在状态 s 下的期望回报。

价值函数模型通常是一个与策略模型(policy model)规模相近的神经网络,这使得训练过程需要额外的计算资源和内存。

GRPO的创新:基于组分数的基线估计

GRPO的核心思想是放弃单独训练的价值函数模型,转而通过组分数来估计基线。具体来说,GRPO的工作机制如下:

  1. 采样组输出:对于每个问题 q,从旧策略 πθold 中采样一组输出 o1,o2,,oK
  2. 计算组分数:使用奖励模型(reward model)为每个输出 oi 计算奖励分数 ri
  3. 估计基线:通过组分数的平均值来估计基线。具体来说,基线 V^(q) 可以表示为:

    V^(q)=1Ki=1Kri

  4. 计算相对优势:对于每个输出 oi,计算其相对优势 A^(q,oi) 为:

    A^(q,oi)=riV^(q)

  5. 优化策略模型:使用相对优势来更新策略模型,目标函数为:

    Jθ(θ)=EqD,{oi}i=1Kπθold(A|q)[1Ki=1Kmin(πθ(oi|q)πθold(oi|q)A^(q,oi),clip(πθ(oi|q)πθold(oi|q),1ϵ,1+ϵ)A^(q,oi))]

优势与资源节省

通过使用组分数估计基线,GRPO避免了训练额外的价值函数模型,从而显著减少了训练资源的消耗。具体优势包括:

  1. 减少内存需求:不需要额外存储价值函数模型的参数。
  2. 减少计算资源:避免了训练和更新价值函数模型的计算开销。
  3. 简化训练流程:减少了模型训练过程中的复杂性,使得整个强化学习过程更加高效。

实验结果

论文中的实验结果表明,GRPO在数学推理任务中表现出色。例如,GRPO在GSM8K和MATH基准测试中显著提升了DeepSeekMath模型的性能,分别达到了88.2%和51.7%的准确率。这些结果表明,GRPO不仅在资源消耗上具有优势,而且在性能提升方面也非常有效。

posted @   bregman  阅读(15)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示