会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
月出兮彩云归 🌙
首页
新随笔
联系
订阅
管理
2024年7月25日
PbRL | RIME:用交叉熵 loss 大小分辨 preference 是否正确 + 内在奖励预训练 reward model
摘要: ① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。
阅读全文
posted @ 2024-07-25 16:10 MoonOut
阅读(116)
评论(0)
推荐(0)
编辑
交叉熵、KL 散度 | 定义与相互关系
摘要: D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q)
阅读全文
posted @ 2024-07-25 12:35 MoonOut
阅读(126)
评论(0)
推荐(0)
编辑
公告