HelpSteer2: Open-source dataset for training top-performing reward models

提示词收集:
shareGPT:只使用了英语, Berttopic聚类到1000类.我们每一类进行均匀抽样. 我们发现高质量的生成需要复杂的提示词.
微调: SFT, steerLM, rlhf, dpo.

posted on 2024-10-23 23:30  张博的博客  阅读(3)  评论(0编辑  收藏  举报

导航