红蓝对抗 (red-teaming)

论文题目：
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

减少危害的红队语言模型:方法、缩放行为和经验教训

摘要：

我们描述了早期红蓝语言模型的工作，发现、测量并尝试减少其潜在的有害输出。
我们作出了三个主要贡献。
（1）首先，我们研究了红队在3种模型大小(2.7B, 13B和52B参数)和4种模型类型中的缩放行为:普通语言模型(LM);一个有用、诚实、无害的提示LM;有抑制抽样的LM;以及一个使用从人类反馈中强化学习(RLHF)训练成有益无害的模型。我们发现RLHF模型随着规模的扩大对红队来说越来越困难，我们发现其他模型类型的规模呈平缓趋势。
（2）其次，我们发布了38,961次红队攻击的数据集，供其他人分析和学习。我们提供了自己对数据的分析，并发现了各种有害的输出，从攻击性语言到更微妙的有害非暴力不道德输出。
（3）第三，我们详尽地描述了我们的指示、流程、统计方法和关于红队的不确定性。我们希望这种透明度能够加速我们作为一个社区一起工作的能力，以便为红队语言模型开发共享的规范、实践和技术标准。

目的是让语言模型变得有用、诚实、无害，而不是胡说八道。

posted on 2023-02-21 10:12 宋岳庭阅读(1043) 评论(0) 编辑收藏举报