HYLOVEYOURSELF

小洋宝的进步史

导航

你的语言模型实际是一个奖励模型!😁Direct Preference Optimization:Your Language Model🎭is Secretly a Reward Model

直接偏好优化:你的语言模型实际上是一个奖励模型

img
😎其实每张PPT图下面还有解释的注释,但放上去还要改格式,太多啦!所以就靠大家读论文脑补啦!😘

摘要

img
img

1.引言

img
img
img

2.相关工作

img
img

3.预备知识

img
img
img
img

4.直接偏好优化

img
img
img
img
img

5.DPO的理论分析

img
img
img
img
img
img
img
img

6.实验

img
img
img
img
img
img
img
img
img
img

7.讨论

img

img

posted on 2024-12-19 14:23  岁月月宝贝  阅读(6)  评论(1编辑  收藏  举报