HelpSteer2: Open-source dataset for training top-performing reward models

提示词收集:
shareGPT:只使用了英语, Berttopic聚类到1000类.我们每一类进行均匀抽样. 我们发现高质量的生成需要复杂的提示词.
微调: SFT, steerLM, rlhf, dpo.