会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
风雨中的小七
博客园
首页
新随笔
联系
订阅
管理
2024年2月22日
解密prompt系列24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
摘要:
这几章我们会针对经典RLHF算法存在的不稳定,成本高,效率低等问题聊聊新方案。第一章我们先说RLHF训练策略相关的方案,包括SLiC-HF,DPO,RRHF和RSO,他们之间有很多相似之处~
阅读全文
posted @ 2024-02-22 07:54 风雨中的小七
阅读(861)
评论(0)
推荐(0)
编辑