会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
风雨中的小七
博客园
首页
新随笔
联系
订阅
管理
2024年7月23日
解密prompt系列34. RLHF之训练另辟蹊径:循序渐进 & 青出于蓝
摘要:
前几章我们讨论了RLHF的样本构建优化和训练策略优化,这一章我们讨论两种不同的RL训练方案,分别是基于过程训练,和使用弱Teacher来监督强Student 循序渐进:PRM & ORM 想要获得过程
阅读全文
posted @ 2024-07-23 07:30 风雨中的小七
阅读(319)
评论(0)
推荐(0)
编辑