Composite Backdoor Attacks Against Large Language Models

（1）过去的研究主要集中于在用户输入的单个部分（指令或者输入）中植入触发器，这种攻击方法容易被用户错误触发。

（2）传统的多触发器攻击方法是使用多个常用单词进行组合，这种方法会导致用户输入的可读性和语义性能下降，从而不够隐蔽

（3）文章提出的方法在用户输入的多个部分中插入常用单词用作触发器，在保持较高隐蔽性的同时实现了高攻击成功率

1、正中毒样本生成

　　正中毒样本：用于制造模型后门的中毒样本，由用户输入和目标标签组成。其中用户输入的各个部分都被插入了对应的触发器

2、负中毒样本生成

　　负中毒样本：用于防止后门信息过拟合的样本，由用户输入和原始标签组成。其中用户输入的任意部分被插入了非对应的触发器。

☆：指令触发器

◇：输入触发器

D(1),D(2)：拥有1个/2个触发器的投毒数据集

ASR:攻击成功率

CTA:干净输入准确率，指干净输入在添加了后门的模型中输出的准确率

FTR:错误触发率，指负中毒样本输出目标分类的概率

结论：

（1）文章提出的攻击方法能够在保持高ASR的同时维持高CTA以及低FTR

（2）在投毒数据占比达到1%的时候，所有模型在不同数据集中普遍出现了FTR反弹升高的情况，推测是在投毒数据占比达到1%时，模型普遍出现了对中毒数据过拟合的情况。但随着投毒数据数量的逐渐增加，过拟合情况便消退了

posted @ 2024-06-23 21:44 sftsgly 阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

SFTSGLY的博客空间