偏好对齐

RLHF

学习一个reword model:

image

优化目标:
image

这个目标是不可微的,所以需要RL的算法:PPO

DPO

核心是省去显式建模reword model的过程,显式建立奖励与策略之间的函数关系,使用偏好数据直接优化策略(llm)


PPO中训练reword model时的损失函数:
image
\(y_w\)代表好数据(win),\(y_l\)代表差数据(lose)


DPO建立一个奖励和策略的显式函数关系:
image
\(\pi_r()\)表示需要对齐的llm,\(\pi_ref()\)表示参数被fix的sft模型,\(r()\)表示奖励

推导一步:
image


带回reword model的函数:
image

这样就达成了直接用偏好数据,去对齐llm的目的,也符合论文名:Your Language Model is Secretly a Reward Model


image

IPO

IPO出自2023年10月的deepmind研究院的论文《A General Theoretical Paradigm to Understand Learning from Human Preferences》,论文定义了DPO的通用形式并调整其形式来解决过拟合问题。IPO相当于 在DPO的损失函数上添加了一个正则项

image
\(\tau\)与DPO里的\(\beta\)类似)

KTO

posted @   shiiiilong  阅读(72)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
点击右上角即可分享
微信分享提示