语言模型资料
token生成
-
代码 transformers.generation.GenerationMixin.generate
-
文档资料
-
顺便了解了 Johnson-Lindenstrauss引理 https://kexue.fm/archives/8679
强化学习
以下是 基于kimi的一些问答, 注意部分公式符号和论文是对不上的。
在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,surrogate一词主要出现在对强化学习(Reinforcement Learning, RL)算法的讨论中,特别是与Proximal Policy Optimization(PPO)相关的内容。
在论文中的具体含义
在PPO算法中,surrogate objective(替代目标函数)是一个用于优化策略模型的关键函数。它通过最大化这个替代目标来更新策略模型,从而提高模型在特定任务上的表现。具体来说,PPO算法的替代目标函数定义为:
其中:
- 和 分别是旧策略和新策略。
- 是优势函数(advantage),用于衡量某个动作相对于平均情况的好坏。
- 是一个超参数,用于控制更新的幅度。
作用
替代目标函数的作用是通过优化策略模型,使其在给定的任务上获得更高的奖励。它通过以下方式实现:
- 减少更新的方差:通过引入优势函数 ,替代目标函数能够更有效地衡量动作的好坏,从而减少更新过程中的方差。
- 控制更新的幅度:通过clip操作,PPO算法限制了策略更新的幅度,避免了过大的更新导致策略不稳定。
- 提高训练的稳定性:替代目标函数的设计使得PPO算法在训练过程中更加稳定,能够更好地适应复杂的任务环境。
在论文中的应用
在论文中,作者提出了Group Relative Policy Optimization(GRPO),这是一种改进的PPO算法。GRPO通过放弃传统的critic模型,改用基于组分数的基线来估计优势函数,从而显著减少了训练资源的消耗。这种改进使得GRPO在数学推理任务中表现出色,尤其是在DeepSeekMath模型的强化学习阶段,GRPO显著提升了模型在多个数学基准测试中的表现。
在论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》中,作者提出了Group Relative Policy Optimization (GRPO),这是一种改进的强化学习算法,用于优化语言模型的数学推理能力。GRPO的一个关键创新点是放弃了传统的价值函数模型(value model),转而通过组分数(group scores)来估计基线(baseline),从而显著减少了训练资源的消耗。
传统PPO中的价值函数模型
在传统的Proximal Policy Optimization (PPO)算法中,通常需要训练一个价值函数模型(value model)来估计每个状态的值函数(value function)。这个价值函数用于计算优势函数(advantage function),即某个动作相对于平均情况的优劣。具体来说,优势函数 通常定义为:
其中:
- 是状态-动作值函数,表示在状态 下采取动作 的期望回报。
- 是状态值函数,表示在状态 下的期望回报。
价值函数模型通常是一个与策略模型(policy model)规模相近的神经网络,这使得训练过程需要额外的计算资源和内存。
GRPO的创新:基于组分数的基线估计
GRPO的核心思想是放弃单独训练的价值函数模型,转而通过组分数来估计基线。具体来说,GRPO的工作机制如下:
- 采样组输出:对于每个问题 ,从旧策略 中采样一组输出 。
- 计算组分数:使用奖励模型(reward model)为每个输出 计算奖励分数 。
- 估计基线:通过组分数的平均值来估计基线。具体来说,基线 可以表示为:
- 计算相对优势:对于每个输出 ,计算其相对优势 为:
- 优化策略模型:使用相对优势来更新策略模型,目标函数为:
优势与资源节省
通过使用组分数估计基线,GRPO避免了训练额外的价值函数模型,从而显著减少了训练资源的消耗。具体优势包括:
- 减少内存需求:不需要额外存储价值函数模型的参数。
- 减少计算资源:避免了训练和更新价值函数模型的计算开销。
- 简化训练流程:减少了模型训练过程中的复杂性,使得整个强化学习过程更加高效。
实验结果
论文中的实验结果表明,GRPO在数学推理任务中表现出色。例如,GRPO在GSM8K和MATH基准测试中显著提升了DeepSeekMath模型的性能,分别达到了88.2%和51.7%的准确率。这些结果表明,GRPO不仅在资源消耗上具有优势,而且在性能提升方面也非常有效。
--- 她说, 她是仙,她不是神
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律