会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
风生水起
善战者,求之于势,不责于人,故能择人而任势。
博客园
首页
新随笔
联系
订阅
管理
2023年11月2日
RLHF总结
摘要: RAFT:Reward rAnked FineTuning for Generative Foundation Model Alignment 给一批Prompt,先让大模型生成对每一个prompt生成一个answer,然后让RM去给这些prompt-answer对进行打分,把得分高的选出来用于Fi
阅读全文
posted @ 2023-11-02 14:27 风生水起
阅读(305)
评论(0)
推荐(0)
编辑