Composite Backdoor Attacks Against Large Language Models

攻击背景

(1)过去的研究主要集中于在用户输入的单个部分(指令或者输入)中植入触发器,这种攻击方法容易被用户错误触发。

(2)传统的多触发器攻击方法是使用多个常用单词进行组合,这种方法会导致用户输入的可读性和语义性能下降,从而不够隐蔽

(3)文章提出的方法在用户输入的多个部分中插入常用单词用作触发器,在保持较高隐蔽性的同时实现了高攻击成功率

 

 

实现过程

1、正中毒样本生成

  正中毒样本:用于制造模型后门的中毒样本,由用户输入和目标标签组成。其中用户输入的各个部分都被插入了对应的触发器

 

2、负中毒样本生成

  负中毒样本:用于防止后门信息过拟合的样本,由用户输入和原始标签组成。其中用户输入的任意部分被插入了非对应的触发器。

 

☆:指令触发器

◇:输入触发器

D(1),D(2):拥有1个/2个触发器的投毒数据集

 

实验比对

ASR:攻击成功率

CTA:干净输入准确率,指干净输入在添加了后门的模型中输出的准确率

FTR:错误触发率,指负中毒样本输出目标分类的概率

 

结论:

(1)文章提出的攻击方法能够在保持高ASR的同时维持高CTA以及低FTR

(2)在投毒数据占比达到1%的时候,所有模型在不同数据集中普遍出现了FTR反弹升高的情况,推测是在投毒数据占比达到1%时,模型普遍出现了对中毒数据过拟合的情况。但随着投毒数据数量的逐渐增加,过拟合情况便消退了

posted @ 2024-06-23 21:44  sftsgly  阅读(25)  评论(0编辑  收藏  举报