会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Dream
博客园
首页
新随笔
联系
管理
订阅
01 2024 档案
DPO: Direct Preference Optimization 直接偏好优化(学习笔记)
摘要:学习参考:链接1 一、为什么要提出DPO 在之前,我们已经了解到基于人类反馈的强化学习RLHF分为三个阶段:全监督微调(SFT)、奖励模型(RM)、强化学习(PPO)。但是RLHF面临缺陷:RLHF 是一个复杂且经常不稳定的过程,首先拟合反映人类偏好的奖励模型,然后使用强化学习微调大型无监督 LM,
阅读全文
posted @
2024-01-15 09:56
kkzhang
阅读(33062)
评论(0)
推荐(0)
编辑
公告