LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法
随着语言模型(LMs)应用范围的扩大,对用户输入和模型输出中不当内容的检测变得日益重要。每当主要模型供应商发布新模型时,研究人员首先会尝试寻找绕过模型安全限制的方法,使其产生不符合预期的响应。通过Google的搜索可以发现,已有多种方法可以绕过模型的对齐调整,导致模型对不当请求作出响应。另外多家公司已将基于生成式AI的对话系统应用于客户服务等场景,这些系统经常面临提示注入攻击,导致其响应不当请求或超出预定范围的任务。对企业而言,能够检测和分类这些实例至关重要,这可以防止系统被用户轻易操控,特别是在公开部署对话系统的情况下。
今天介绍的论文是《基于剪枝语言模型的轻量级安全分类》。这个研究提出了层增强分类(Layer Enhanced Classification)技术,证明了通过利用语言模型中间transformer层的隐藏状态训练具有惩罚项的逻辑回归分类器,可以有效实现内容安全违规和提示注入攻击的分类。该分类器仅需极少量可训练参数(最少769个)和训练样本(通常少于100个)。这种方法结合了简单分类模型的计算效率和语言模型的深度语言理解能力。
所有采用LEC方法训练的模型性能均优于专门设计的任务特定模型和GPT-4o。论文发现存在最优的中间transformer层,这些层能够为内容安全和提示注入分类任务提供必要的特征表示。这一发现具有重要意义,因为它表明可以使用同一模型同时完成内容安全违规检测、提示注入分类和输出标记生成。
https://avoid.overfit.cn/post/9bf5bb66223f4ca58e21146ffb586d4f