语言模型资料

token生成

代码 transformers.generation.GenerationMixin.generate
文档资料
- 机器如何生成文本？ https://cloud.tencent.com/developer/article/1620772
- NLP的巨人肩膀 https://zhuanlan.zhihu.com/p/50443871
- https://tianhongzxy.github.io/2021/05/08/论文及博客阅读笔记/
顺便了解了 Johnson-Lindenstrauss引理 https://kexue.fm/archives/8679

强化学习

以下是基于kimi的一些问答，注意部分公式符号和论文是对不上的。

在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中，surrogate一词主要出现在对强化学习（Reinforcement Learning, RL）算法的讨论中，特别是与Proximal Policy Optimization（PPO）相关的内容。

在论文中的具体含义

在PPO算法中，surrogate objective（替代目标函数）是一个用于优化策略模型的关键函数。它通过最大化这个替代目标来更新策略模型，从而提高模型在特定任务上的表现。具体来说，PPO算法的替代目标函数定义为：

\[J_{\theta}(\theta') = \mathbb{E}_{i \sim \pi_{\theta}(A), o \sim \pi_{\theta'}(A|i)} \left[ \frac{1}{|o|} \sum_{j=1}^{|o|} \min \left( \frac{\pi_{\theta'}(o_j|i, o_{<j})}{\pi_{\theta}(o_j|i, o_{<j})} A_j, \text{clip} \left( \frac{\pi_{\theta'}(o_j|i, o_{<j})}{\pi_{\theta}(o_j|i, o_{<j})}, 1 - \epsilon, 1 + \epsilon \right) A_j \right) \right] \]

其中：

$ \pi_{\theta} $ 和 $ \pi_{\theta'} $ 分别是旧策略和新策略。
$ A_j $ 是优势函数（advantage），用于衡量某个动作相对于平均情况的好坏。
$ \epsilon $ 是一个超参数，用于控制更新的幅度。

作用

替代目标函数的作用是通过优化策略模型，使其在给定的任务上获得更高的奖励。它通过以下方式实现：

减少更新的方差：通过引入优势函数 $ A_j $，替代目标函数能够更有效地衡量动作的好坏，从而减少更新过程中的方差。
控制更新的幅度：通过clip操作，PPO算法限制了策略更新的幅度，避免了过大的更新导致策略不稳定。
提高训练的稳定性：替代目标函数的设计使得PPO算法在训练过程中更加稳定，能够更好地适应复杂的任务环境。

在论文中的应用

在论文中，作者提出了Group Relative Policy Optimization（GRPO），这是一种改进的PPO算法。GRPO通过放弃传统的critic模型，改用基于组分数的基线来估计优势函数，从而显著减少了训练资源的消耗。这种改进使得GRPO在数学推理任务中表现出色，尤其是在DeepSeekMath模型的强化学习阶段，GRPO显著提升了模型在多个数学基准测试中的表现。

在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中，作者提出了Group Relative Policy Optimization (GRPO)，这是一种改进的强化学习算法，用于优化语言模型的数学推理能力。GRPO的一个关键创新点是放弃了传统的价值函数模型（value model），转而通过组分数（group scores）来估计基线（baseline），从而显著减少了训练资源的消耗。

传统PPO中的价值函数模型

在传统的Proximal Policy Optimization (PPO)算法中，通常需要训练一个价值函数模型（value model）来估计每个状态的值函数（value function）。这个价值函数用于计算优势函数（advantage function），即某个动作相对于平均情况的优劣。具体来说，优势函数 $ A(s, a) $ 通常定义为：

\[A(s, a) = Q(s, a) - V(s) \]

其中：

$ Q(s, a) $ 是状态-动作值函数，表示在状态 $ s $ 下采取动作 $ a $ 的期望回报。
$ V(s) $ 是状态值函数，表示在状态 $ s $ 下的期望回报。

价值函数模型通常是一个与策略模型（policy model）规模相近的神经网络，这使得训练过程需要额外的计算资源和内存。

GRPO的创新：基于组分数的基线估计

GRPO的核心思想是放弃单独训练的价值函数模型，转而通过组分数来估计基线。具体来说，GRPO的工作机制如下：

采样组输出：对于每个问题 $ q $，从旧策略 $ \pi_{\theta_{\text{old}}} $ 中采样一组输出 $ {o_1, o_2, \dots, o_K} $。
计算组分数：使用奖励模型（reward model）为每个输出 $ o_i $ 计算奖励分数 $r_i $。
估计基线：通过组分数的平均值来估计基线。具体来说，基线 $ \hat{V}(q) $ 可以表示为：
\[\hat{V}(q) = \frac{1}{K} \sum_{i=1}^{K} r_i \]
计算相对优势：对于每个输出 $ o_i $，计算其相对优势 $ \hat{A}(q, o_i) $ 为：
\[\hat{A}(q, o_i) = r_i - \hat{V}(q) \]
优化策略模型：使用相对优势来更新策略模型，目标函数为：
\[J_{\theta}(\theta') = \mathbb{E}_{q \sim \mathcal{D}, \{o_i\}_{i=1}^{K} \sim \pi_{\theta_{\text{old}}}(A|q)} \left[ \frac{1}{K} \sum_{i=1}^{K} \min \left( \frac{\pi_{\theta'}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} \hat{A}(q, o_i), \text{clip} \left( \frac{\pi_{\theta'}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1 - \epsilon, 1 + \epsilon \right) \hat{A}(q, o_i) \right) \right] \]

优势与资源节省

通过使用组分数估计基线，GRPO避免了训练额外的价值函数模型，从而显著减少了训练资源的消耗。具体优势包括：

减少内存需求：不需要额外存储价值函数模型的参数。
减少计算资源：避免了训练和更新价值函数模型的计算开销。
简化训练流程：减少了模型训练过程中的复杂性，使得整个强化学习过程更加高效。

实验结果

论文中的实验结果表明，GRPO在数学推理任务中表现出色。例如，GRPO在GSM8K和MATH基准测试中显著提升了DeepSeekMath模型的性能，分别达到了88.2%和51.7%的准确率。这些结果表明，GRPO不仅在资源消耗上具有优势，而且在性能提升方面也非常有效。

posted @ 2025-02-05 15:37 bregman 阅读(91) 评论(0) 收藏举报

刷新页面返回顶部

她说，她是仙，她不是神

语言模型资料

token生成

强化学习

在论文中的具体含义

作用

在论文中的应用

传统PPO中的价值函数模型

GRPO的创新：基于组分数的基线估计

优势与资源节省

实验结果

公告

她说， 她是仙， 她不是神

语言模型资料

token生成

强化学习

在论文中的具体含义

作用

在论文中的应用

传统PPO中的价值函数模型

GRPO的创新：基于组分数的基线估计

优势与资源节省

实验结果

公告

她说，她是仙，她不是神