HelpSteer2: Open-source dataset for training top-performing reward models
提示词收集:
shareGPT:只使用了英语, Berttopic聚类到1000类.我们每一类进行均匀抽样. 我们发现高质量的生成需要复杂的提示词.
微调: SFT, steerLM, rlhf, dpo.
contact me:wechat 15122306087
提示词收集:
shareGPT:只使用了英语, Berttopic聚类到1000类.我们每一类进行均匀抽样. 我们发现高质量的生成需要复杂的提示词.
微调: SFT, steerLM, rlhf, dpo.