Composite Backdoor Attacks Against Large Language Models
攻击背景
(1)过去的研究主要集中于在用户输入的单个部分(指令或者输入)中植入触发器,这种攻击方法容易被用户错误触发。
(2)传统的多触发器攻击方法是使用多个常用单词进行组合,这种方法会导致用户输入的可读性和语义性能下降,从而不够隐蔽
(3)文章提出的方法在用户输入的多个部分中插入常用单词用作触发器,在保持较高隐蔽性的同时实现了高攻击成功率
实现过程
1、正中毒样本生成
正中毒样本:用于制造模型后门的中毒样本,由用户输入和目标标签组成。其中用户输入的各个部分都被插入了对应的触发器
2、负中毒样本生成
负中毒样本:用于防止后门信息过拟合的样本,由用户输入和原始标签组成。其中用户输入的任意部分被插入了非对应的触发器。
☆:指令触发器
◇:输入触发器
D(1),D(2):拥有1个/2个触发器的投毒数据集
实验比对
ASR:攻击成功率
CTA:干净输入准确率,指干净输入在添加了后门的模型中输出的准确率
FTR:错误触发率,指负中毒样本输出目标分类的概率
结论:
(1)文章提出的攻击方法能够在保持高ASR的同时维持高CTA以及低FTR
(2)在投毒数据占比达到1%的时候,所有模型在不同数据集中普遍出现了FTR反弹升高的情况,推测是在投毒数据占比达到1%时,模型普遍出现了对中毒数据过拟合的情况。但随着投毒数据数量的逐渐增加,过拟合情况便消退了