红蓝对抗 (red-teaming)

论文地址:
https://arxiv.org/abs/2209.07858

论文题目:
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

减少危害的红队语言模型:方法、缩放行为和经验教训

摘要:

我们描述了早期红蓝语言模型的工作,发现、测量并尝试减少其潜在的有害输出。
我们作出了三个主要贡献。
(1)首先,我们研究了红队在3种模型大小(2.7B, 13B和52B参数)和4种模型类型中的缩放行为:普通语言模型(LM);一个有用、诚实、无害的提示LM;有抑制抽样的LM;以及一个使用从人类反馈中强化学习(RLHF)训练成有益无害的模型。我们发现RLHF模型随着规模的扩大对红队来说越来越困难,我们发现其他模型类型的规模呈平缓趋势。
(2)其次,我们发布了38,961次红队攻击的数据集,供其他人分析和学习。我们提供了自己对数据的分析,并发现了各种有害的输出,从攻击性语言到更微妙的有害非暴力不道德输出。
(3)第三,我们详尽地描述了我们的指示、流程、统计方法和关于红队的不确定性。我们希望这种透明度能够加速我们作为一个社区一起工作的能力,以便为红队语言模型开发共享的规范、实践和技术标准。

目的是让语言模型变得有用、诚实、无害,而不是胡说八道。

posted on 2023-02-21 10:12  宋岳庭  阅读(1043)  评论(0编辑  收藏  举报