偏好对齐
RLHF
学习一个reword model:
优化目标:
这个目标是不可微的,所以需要RL的算法:PPO
DPO
核心是省去显式建模reword model的过程,显式建立奖励与策略之间的函数关系,使用偏好数据直接优化策略(llm)
PPO中训练reword model时的损失函数:
\(y_w\)代表好数据(win),\(y_l\)代表差数据(lose)
DPO建立一个奖励和策略的显式函数关系:
\(\pi_r()\)表示需要对齐的llm,\(\pi_ref()\)表示参数被fix的sft模型,\(r()\)表示奖励
推导一步:
带回reword model的函数:
这样就达成了直接用偏好数据,去对齐llm的目的,也符合论文名:Your Language Model is Secretly a Reward Model
IPO
IPO出自2023年10月的deepmind研究院的论文《A General Theoretical Paradigm to Understand Learning from Human Preferences》,论文定义了DPO的通用形式并调整其形式来解决过拟合问题。IPO相当于 在DPO的损失函数上添加了一个正则项
(\(\tau\)与DPO里的\(\beta\)类似)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?