摘要: ① 假设正确样本的 CELoss 上限是 ρ,可推出错误样本相对 P_ψ(x) 分布的 KL 散度上限,从而筛出可信样本、翻转不可信样本;② 用归一化到 (-1,1) 的 intrinsic reward 预训练 reward model。 阅读全文
posted @ 2024-07-25 16:10 MoonOut 阅读(116) 评论(0) 推荐(0) 编辑
摘要: D_KL(P||Q) = ∫p(x) log p(x) - ∫p(x) log q(x) = H(P) + H(P,Q) 阅读全文
posted @ 2024-07-25 12:35 MoonOut 阅读(126) 评论(0) 推荐(0) 编辑