会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
张博的博客
contact me:wechat 15122306087
2024年10月23日
HelpSteer2: Open-source dataset for training top-performing reward models
摘要: 提示词收集: shareGPT:只使用了英语, Berttopic聚类到1000类.我们每一类进行均匀抽样. 我们发现高质量的生成需要复杂的提示词. 微调: SFT, steerLM, rlhf, dpo.
阅读全文
posted @ 2024-10-23 23:30 张博的博客
阅读(3)
评论(0)
推荐(0)
编辑
导航
新随笔
管理