论文阅读《Backdoor Learning: A Survey》

《Backdoor Learning: A Survey》阅读笔记

摘要

  后门攻击的目的是将隐藏后门嵌入到深度神经网络(dnn)中,使被攻击模型在良性样本上表现良好,而如果隐藏后门被攻击者定义的触发器激活,则被攻击模型的预测将被恶意改变。这种威胁可能发生在训练过程没有完全控制的情况下,例如在第三方数据集上进行训练或采用第三方模型,这是一种新的现实威胁。尽管后门学习是一个新兴的、发展迅速的研究领域,但对其进行系统的综述却一直是空白。在本文中,作者首次对这一领域进行了全面的综述。作者根据现有的后门攻击和防御的特点,对其进行了归纳和分类,并提供了一个统一的基于中毒的后门攻击分析框架。此外,我们还分析了后门攻击与相关领域(即对抗性攻击和数据中毒)之间的关系,并总结了被广泛采用的基准数据集。最后,在回顾文献的基础上,简要概述了未来的研究方向。

I. Introduction

  近十年来,深度神经网络已成功应用于人脸识别、自动驾驶等关键任务。因此,其安全问题具有重要意义,引起了广泛关注。一个被广泛研究的例子是对抗性例子,它探索了推理阶段dnn的对抗性脆弱性。与推理阶段相比,dnn的训练阶段涉及更多的步骤,包括数据采集、数据预处理、模型选择与构建、训练、模型保存、模型部署等。更多的步骤意味着更多的攻击机会,也就是说,更多的安全威胁dnn。同时,dnn强大的能力在很大程度上依赖于其庞大的训练数据和计算资源。为了降低培训成本,用户可以选择采用第三方数据集,而不是自己收集培训数据,因为互联网上有很多免费可用的数据集;用户也可以基于第三方平台(如云计算平台)培训dnn,而不是在本地培训dnn;用户甚至可以直接使用第三方模型。便利性成本是丧失对培训阶段的控制权或知情权,这可能会进一步加大培训dnn的安全风险。训练阶段的一个典型威胁是后门攻击,这是本调查的主要重点。与对抗性攻击不同,后者的漏洞是由模型和人的行为差异造成的,后门攻击者利用了对dnn的非鲁棒特征(如纹理)的“过度”学习能力。更多的后门攻击与相关领域的比较在第五节。

  一般来说,后门攻击的目的是将隐藏的后门嵌入到dnn中,使被感染的模型在后门未被激活的情况下对良性测试样本表现良好,类似于在良性环境下训练的模型;但是,如果后门被攻击者激活了,那么它的预测将被更改为攻击者指定的目标标签。由于受感染的dnn在良性设置下正常运行,并且后门(仅)由攻击者指定的触发器激活,因此用户很难意识到它的存在。因此,隐蔽的后门攻击是对dnn的严重威胁。目前,训练数据中毒是训练过程中将后门功能编码到模型权重的最直接和常见的方法。如图1所示,通过添加攻击者指定的触发器(例如,局部补丁)来修改一些训练样本。这些具有攻击者指定的目标标签的修改样本和良性训练样本被送入dnn进行训练。此外,后门触发器可以是不可见的中毒样品的标签也可以与目标标签一致,增加了后门攻击的隐秘性。除了直接毒害训练样本外,还可以通过迁移学习,直接修改模型的权值,引入额外的恶意模块来嵌入隐藏后门。换句话说,后门攻击可能发生在培训过程的所有步骤中。

  为了减轻后门威胁,提出了不同的防御方法。总的来说,这些方法可以分为两大类,包括经验后门防御和认证后门防御。经验后门防御是在对现有攻击的一些观察或理解的基础上提出的,在实践中表现良好;然而,它们的有效性没有理论上的保证,可能会被一些自适应攻击所绕过。相比之下,认证后门防御的有效性在理论上是在一定的假设下得到保证的,但在实践中其有效性普遍弱于经验抗辩。如何更好地防御后门攻击仍然是一个重要的悬而未决的问题。

II. Preliminaries

A.专业术语定义

  • 良性模型(Benign model):指在良性环境下训练的模型。
  • 受感染模型(Infected model):指具有隐藏后门的模型。

  • 中毒样本(Poisoned sample):在基于中毒的后门攻击中用于在训练过程中嵌入后门的改进训练样本。
  • 触发器(Trigger):用于生成中毒样本和激活隐藏后门的模式。

  • 攻击样本(Attacked sample):用于查询被感染模型的恶意测试样本(带有触发器)。

  • 攻击场景(Attack scenario):指可能发生后门攻击的场景。通常发生在用户无法访问或无法控制培训过程时,如使用第三方数据集进行培训、通过第三方平台进行培训、采用第三方模型等。
  • 源标签(Source label):表示中毒或受攻击样本的原始标签。
  • 目标标签(Target label):攻击者指定的标签。攻击者意图使所有被攻击的样本都被感染模型预测为目标标签。
  • 攻击成功率(ASR):表示被感染模型预测为目标标签的被攻击样本的比例。
  • 良性样本准确率(BA):表示被感染模型预测的良性测试样本的准确性。
  • 攻击者的目标(Attacker’s goal):描述后门攻击者打算做什么。一般情况下,攻击者希望设计一个受感染的模型,在实现高ASR的同时,在良性测试样本上表现良好。
  • 能力(Capacity):定义了攻击者/防守者为了达到目标能做什么,不能做什么。

  • 攻击/防御方法(Attack/Defense approach):说明了所设计的后门攻击/防御的过程。

B.经典场景及对应能力

  场景一:采用第三方数据集。在这种情况下,攻击者直接或通过Internet向用户提供有毒数据集。用户将采用(有毒的)数据集来训练和部署他们的模型。因此,攻击者只能操作数据集,而不能修改模型、训练计划和推理管道。相反,在这种情况下,防御者可以操纵一切。例如,他们可以清理(有毒的)数据集,以减轻后门威胁。

  场景二:采用第三方平台。在这个场景中,用户将他们的(良性的)数据集、模型结构和训练计划提供给不可信的第三方平台(例如谷歌Cloud)来训练他们的模型。虽然提供了良性数据集和训练计划,但是攻击者(即恶意平台)可以在实际的训练过程中修改这些数据集和训练计划。但是,攻击者不能改变模型结构,否则用户会注意到攻击。相反,防御者不能控制训练集和调度,但可以修改训练模型以减轻攻击。例如,他们可以在一个小型的本地良性数据集上对它进行微调。

  场景三:采用第三方模型。在这种情况下,攻击者通过应用程序编程接口(API)或Internet提供经过训练的受感染dnn。攻击者可以更改除推理过程之外的所有内容。例如,用户可以在预测之前对测试图像引入预处理模块,攻击者无法控制。对于防御者来说,当提供了源文件时,他们可以控制推理管道和模型;然而,如果他们只能访问模型API,他们就不能修改模型。

III. Poisoning-Based Backdoor Attack

  在过去的三年里,有很多人提出了后门攻击。在本节中,首先提出一个统一的框架来分析现有的基于投毒的图像分类攻击,基于对攻击属性的理解。在此基础上,对现有的基于投毒的攻击进行了详细的总结和分类。最后还讨论了对其他任务或范式的攻击以及后门攻击的善意应用。

A.基于中毒攻击的统一框架

  本文首先定义了这一领域的三个必要风险,然后描述了基于中毒的后门攻击的优化过程。根据过程的特点,可以根据不同的标准对基于中毒的攻击进行分类,如图2所示。表二总结了更多关于分类标准的细节。

 定义1(标准、后门和可感知风险)。

  •  标准风险Rs:度量x(即C(x))的预测是否与它的groud-truth label y相同。它的定义与有标记的数据集DL的关系式为

 

  • 后门风险Rb:表示后门触发器是否能成功激活分类器中隐藏的后门。它的定义与DL的表述为

 

 

 

  •  可感知风险Rp:指有毒样本(即x')是否可以被(人或机器)检测为恶意样本。它关于DL的定义表述为

  根据上述定义,可以将现有的攻击归纳为一个统一的框架,具体如下:

 

 

   t∈Γ,λ1和λ2是两个非负权衡超参数,Ds是DL的子集,|Ds|/|DL|是投毒率。

  评价:由于在Rs和Rb中使用的指标函数ΙΙ(·)是不可微的,所有在实践中通常使用它的替代损失(如交叉熵函数、KL散度)来替代。优化(4)可以通过不同的规范表示现有的攻击。例如,当λ1=|DsL|/|DL-DsL|,λ2=0,t未优化(即|Γ|=1)时,则退化为BadNets和Blended Attack。当λ2=+∞,D(x';x)=||x'-x||p时,则变为lp-ball bounded invisible backdoor attacks。此外,可以通过多阶段方法同时或单独优化参数。

  注意:这个框架可以很容易地推广到其他任务,比如语音识别。

 B.评价指标

  为了评价图像分类中后门攻击的性能,通常采用两个经典指标,如前面定义的(1)良性准确率 (BA)和(2)attack成功率(ASR)。ASR越高,被感染模型与正常模型之间的BA越接近,攻击性能越好。此外,中毒率(即中毒样本相对于所有训练样本的比率)越小,良性图像与中毒图像之间的扰动越小,攻击的隐蔽性越强,攻击效果越好

 C.对图像和视频识别的攻击

1)BadNets:

  启发:与硬件设施相似,后门也可以存在于算法中(如DNNs)

  贡献:首先引入了深度学习中的后门攻击,并提出了一种BadNets方法,通过毒害一些训练样本来注入后门。

  方法:首先,在良性样本集中选取一小部分加入后门触发器,也就是说,将后门触发器印到良性图片x上来获得攻击者指定的标签y相关的投毒样本(x',yt)来生成后门图片x',然后使用有毒样本和良性样本对模型进行训练。

  经过训练的DNN会被感染,在良性测试样本上表现良好,类似于仅使用良性样本训练的模型;然而,如果同一个触发器包含在一个被攻击的图像中,那么它的预测将被更改为目标标签。BadNets可能发生在前面描述的每个场景中,是一个严重的安全威胁。

  BadNets是可见攻击的代表,它开启了这一领域的时代。几乎所有后续的基于投毒的攻击都是基于这种方法进行的。

2)Invisible Backdoor Attacks:

Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning

   贡献:证明trigger 可以通过不同的形式(甚至高斯噪声)来构成,而不是单一的像素块;第一次提出了后门的隐蔽性(不可见性),提出怎样去降低后门的可见度(小比例、混合策略、精心设计的模式,第一次讨论了现实中的攻击行为)

 

 

 

 

 

 

 Label-Consistent Backdoor Attacks

   动机:不可见的扰动不足以确保隐蔽性,因为中毒样本的标签与其基本真相标签不匹配。

   贡献:证明了干净标签攻击的可行性;提出一个新的方法来增加触发器的隐蔽性;讨论如何减轻数据扩充的反作用

   方法:挑选p%的带有标签的干净样本;使用基于AT的模型对所有选定图像进行非目标对抗性攻击,以减轻“鲁棒特征”的影响。对攻击样本添加触发器;训练

hidden trigger backdoor attack

   贡献:一种新颖的干净标签后门攻击方法,该方法在特征空间中优化与目标图像接近的有毒图像,以增加不可见性;讨论了动态后门攻击。

   方法:以良性样本训练;产生干净标签的投毒样本;使用生成的中毒样本和良性样本微调模型。

 

 

 3)Optimized Attacks:

  触发器是基于中毒的攻击的核心,因此分析如何设计更好的触发器而不是简单地使用给定的未优化的触发器模式具有重要意义,引起了一些关注。优化的攻击产生有毒的样本与优化的触发器,以实现更好的攻击性能。Liu et al.首先探索了这个问题,他们提出了优化触发器,使重要神经元达到最大值。Li等人将触发器生成描述为一个两层优化,其中触发器被优化以放大一组神经元激活,并伴有“隐形预正则化”。Bagdasaryan等人将后门攻击视为多目标优化,提出同时优化触发和训练DNNs。最近,在一个假设下,如果一个扰动可以将大多数样本引导到目标类的决策边界,那么它将作为一个有效的触发器,也可以通过通用对抗性扰动产生触发器。这些设计方法虽然取得了一定的成功,但大多数仍然是启发式的。如何以更优化的方式设计触发器仍然是一个重要的开放问题。

4) Physical Backdoor Attacks:

  与之前完全在数字空间进行的攻击不同,在物理攻击中生成有毒样本时涉及到物理空间。Chen等人首先探索了这次攻击的情况。在他们的实验中,采用了一副眼镜作为物理触发,以误导在相机中开发的受感染的面部识别系统。Wenger等人还对物理世界中攻击人脸识别的进一步探索进行了讨论。在[7]中也讨论了类似的想法,在攻击部署在摄像头中的交通标志识别时,使用了便利贴作为触发。最近,Li等人证明了现有的数字攻击在物理世界中失败,因为与用于训练的样本相比,所涉及的转换(例如旋转和收缩)改变了被攻击样本中触发的位置和外观。这种不一致性将大大降低攻击的性能。基于这种理解,他们提出了一种基于转换的攻击增强,以便增强的攻击在物理世界中仍然有效。这种尝试是在真实应用程序中成功进行后门攻击的重要一步。

5) Black-box Backdoor Attacks:

  与以往的白盒攻击需要训练样本的知识不同,黑盒攻击采用的是训练集不可访问的设置。在实践中,由于隐私或版权的考虑,训练数据集通常不会共享,因此黑盒攻击比白盒攻击更现实。具体来说,黑盒后门攻击首先需要生成一些训练样本。例如,在[32]中,他们通过优化从另一个数据集初始化的图像来生成每个类的一些代表性图像,使所选类的预测置信度达到最大。利用反向训练集,可以采用白盒攻击进行后门注入。黑盒后门攻击比白盒后门攻击要困难得多。目前,针对这一领域的作品很少。

6) Semantic Backdoor Attacks:

  大多数后门攻击,即非语义攻击,假设触发器是独立于良性图像。换句话说,攻击者需要在推理阶段修改图像来激活隐藏的后门。是否有可能样本的语义部分也可以作为触发器,这样攻击者就不需要在推理时修改输入来欺骗被感染的模型。Bagdasaryan等首先研究了这个问题,提出了一种新的后门攻击类型,即语义后门攻击。具体来说,他们演示了将攻击者选择的标签分配给具有特定特征的所有图像,例如,绿色汽车或带有赛车条纹的汽车,用于训练,可能会在受感染的dnn中创建一个语义隐藏后门。因此,受感染的模型会自动对包含预定义语义信息的测试图像进行误分类,而不需要对图像进行任何修改。在[36]中也探索了类似的想法,其中隐藏的后门可以被图像中某些物体的组合激活。由于这类攻击不需要在数字空间的推理过程中修改图像,我们认为它是非常恶意的,值得进一步探索。

D. 对其他领域或范式的攻击

  目前,大多数针对其他任务或范式的后门攻击仍然是基于毒害的。因此,除了特定任务的要求外,大多数方法都集中在(1)如何设计触发器,(2)如何定义攻击隐身性,(3)如何绕过潜在的防御。不同的任务和模式之间的巨大差异使得上述问题的答案完全不同。例如,在与图像相关的任务中,隐形性可以定义为有毒样本与其良性样本之间的像素距离(如lp范数);然而,在自然语言处理(NLP)中,即使改变一个单词或字符也可能使修改对人类可见,因为它可能导致语法或拼写错误。因此,在与nlp相关的任务中,仅仅是有毒样本和良性样本之间的差异可能并不能作为一个良好的隐身指标。

  除图像或视频分类外,自然语言处理是后门攻击中最广泛的研究领域。Dai等人讨论了如何攻击基于LSTM的情感分析。具体来说,他们提出了一种类似BadNets的方法,其中一个情感中立的句子被用作触发器,并被随机插入到一些良性训练样本中。Chen等人进一步研究了这个问题,提出了三种不同类型的触发器(charlevel、word level和sentence level触发器),并取得了不错的性能。此外,Kurita等人证明,即使经过微调,情感分类、毒性检测和垃圾邮件检测也可以被攻击。最近,Chan等人提出了基于条件对敌正则化自编码的潜在空间攻击NLP模型。除了与nlp相关的任务外,一些研究也揭示了对图神经网络(GNN)的后门威胁。通常,攻击者指定的子图被定义为触发器,一旦被攻击样本中包含触发器,受感染的GNN就会预测被攻击图的目标标签。此外,还研究了对其他任务的后门威胁,如强化学习、说话人验证和无线信号分类。

  除了经典的训练范式外,如何通过后门进行协作学习,尤其是联邦学习,一直是人们关注的焦点。Bagdasaryan等人通过放大节点服务器的有毒梯度首次引入了针对联邦学习的后门攻击。之后,Bhagoji等人讨论了隐身模型中毒后门攻击,Xie等人提出了一种针对联邦学习的分布式后门攻击。最近,[49]在理论上证实,如果一个模型在温和的联合学习条件下容易受到对抗例子的攻击,后门攻击是不可避免的。此外,还讨论了针对元联合学习[50]和特征分割协作学习[51]的后门攻击。相比之下,[52]、[53]、[54]、[55]、[56]、[57]等著作也质疑联邦学习是否真的容易受到攻击。除了合作学习外,在[7],[58],[16],[17],[59]中也讨论了迁移学习这一重要学习范式的后门威胁。

E.后门攻击好的用途

  除了恶意目的外,如何正确地利用后门攻击也得到了一些初步的探索。Adi等人利用后门攻击来验证模型所有权。他们提出通过后门嵌入对dnn进行水印。因此,模型中隐藏的后门可以用来检查所有权,而水印过程仍然保持原有的模型功能。此外,Sommer等揭示了当用户通过基于毒的后门攻击要求删除数据时,如何验证服务器是否真的删除了自己的数据。具体来说,在他们的验证框架中,每个用户使用特定于用户的触发器和目标标签毒害其数据的一部分。因此,在服务器接受用户数据培训后,每个用户都可以在服务器中留下唯一的跟踪,用于删除验证,而对良性模型功能的影响可以忽略不计。Shan等人引入了trapdoor-enabled对抗性防御,防御者通过注入隐藏的后门来防止攻击者发现模型中的自然弱点。这样做的动机是,基于梯度下降的攻击所产生的对抗扰动将会收敛到活板门模式附近,这很容易被防御者发现。Li等讨论了如何保护基于后门攻击的开源数据集。具体来说,他们将这个问题表述为确定数据集是否被用于训练第三方模型。具体来说,他们提出了一种基于假设检验的验证方法,基于良性样本及其相应攻击样本的可疑第三方模型产生的后验概率进行验证。最近,dnn可解释性和可解释AI方法评估也采用了后门攻击。

IV. 基于非投毒的后门攻击

  除了在数据收集时发生外,后门攻击还可能发生在训练过程的其他阶段(如部署阶段),这进一步揭示了后门攻击的严重性。

A. Targeted Weight Perturbation

  Dumford等人首先探索了基于无毒的攻击,他们提出直接修改模型参数,而不是通过使用有毒样本进行训练。这项工作的主要任务是人脸识别,他们假设训练样本不能被攻击者修改。攻击者的目标是让他们自己的脸被授予访问权,尽管他们不是一个有效的用户,同时确保网络对所有其他输入仍然正常运行。为了实现这一目标,他们采用了一种贪婪搜索方法,将不同的扰动应用于预先训练的模型的权值。

B. Targeted Bit Trojan

  Rakin等人并没有简单地通过基于搜索的方法修改模型的参数,而是展示了一种新的方法,称为目标比特木马(TBT),讨论了如何在不经过训练的情况下注入隐藏后门。TBT包含两个主要过程,一是基于梯度的脆弱位确定(类似于[32]中提出的过程),二是采用row-hammer attack在主存中进行有目标位翻转[66]。提出的方法取得了显著的性能,作者能够在CIFAR-10数据集[68]上用8800万权重位中的84位翻转误导ResNet-18[67]。

C. TrojanNet

  与以往直接将后门嵌入参数的方法不同,Guo等[69]提出了TrojanNet,通过一个秘密的权重排列激活被感染的dnn,对后门进行编码。他们假设受感染的网络使用了一个隐藏的后门软件,当后门触发器出现时,该软件可以改变参数。训练木马网络类似于多任务学习,虽然良性任务和恶意任务没有共同特征。此外,作者还证明了判断模型是否包含触发隐藏后门的排列的决策问题是np -完全的,因此后门检测几乎是不可能的。

D. Attack with Trojan Module

  最近,Tang等人[20]提出了一种新的基于无毒的后门攻击,将经过训练的恶意后门模块(即子dnn)插入到目标模型中,而不是改变原始模型中的参数来嵌入隐藏的后门。由于触发器只与恶意模块相关联,而恶意模块可以与任何DNN相结合,因此该方法与模型无关。而且,由于攻击者只需要对(小)木马模块进行一次训练,与以往的攻击方法相比,该方法大大降低了计算成本。在用户采用第三方模型的场景中,它可以作为一个强大的基线。

V. 与相关领域的联系

A. 后门攻击和对抗性攻击

  对抗攻击和(基于中毒的)后门攻击有许多相似之处。首先,这两种攻击都试图修改良性测试样本,使模型行为失常。虽然干扰通常是针对对抗性攻击的图像指定的,但当对抗性攻击具有普遍干扰(如[27],[70],[71])时,这些类型的攻击具有类似的模式。因此,不熟悉后门攻击的研究人员可能会质疑这一领域的研究意义。

  虽然对抗性攻击与后门攻击有一定的相似之处,但也存在本质上的区别。(1)从攻击者的能力来看,对抗性攻击者能够(在一定程度上)控制推理过程,但不能控制模型的训练过程。而对于后门攻击者,模型参数是可以修改的,而推理过程是无法控制的。(2)从被攻击样本的角度来看,扰动是已知的(即,非优化),而对抗性攻击者需要通过基于模型输出的优化过程获得。对抗性攻击中的这种优化需要多个查询,因此很可能被检测到。(3)它们的机制也有本质的区别。对抗性脆弱性是由于模型和人的行为差异造成的。相反,后门攻击者利用dnn对非鲁棒特征(如纹理)的过度学习能力。

  最近,也有一些研究对抗性学习和后门学习之间的潜在联系的早期工作。例如,Pang等揭示了数据中毒和对抗性攻击之间存在有趣的“相互强化”效应,可以用来增强后门攻击;翁等的经验证明,对抗性鲁棒性可能与后门鲁棒性不一致。

B. 后门攻击和数据投毒

  数据中毒和(基于中毒的)后门攻击在训练阶段有许多相似之处。一般来说,它们都是在训练过程中引入有毒样本来误导推理过程中的模型。然而,他们也有显著的差异。从攻击者的目标来看,数据中毒的目的是降低良性检测样本的预测性能。相比之下,后门攻击保持了对良性样本的性能,类似于良性模型,只是将对被攻击样本(即带有触发器的良性测试样本)的预测改变为目标标签。从这个角度来看,数据投毒可以被视为某种程度上具有透明触发器的“非针对性投毒的后门攻击”。从隐身的角度来看,后门攻击比数据中毒更恶毒。用户可以通过本地验证集下的评估来检测数据中毒,但这种方法检测后门攻击的效益有限。

  值得注意的是,现有的数据中毒作品由于它们的相似性,也启发了后门学习的研究。例如,Hong等证明对数据中毒的防御在防御后门攻击方面也有好处,如VI-A5节所示。

 

 

 

VI. 后门防御

  为了减轻后门威胁,提出了几种后门防御措施。现有的方法主要针对防范基于中毒的攻击,可以分为两大类,分别是经验后门防御和认证后门防御。经验后门防御是在对现有攻击的一定理解基础上提出的,在实践中具有良好的性能,但其有效性没有理论保障。而认证后门防御的有效性在理论上是在一定的假设条件下得到保证的,但在实践中其有效性普遍弱于经验防御。目前,认证防御都是基于随机滤波[111],而经验防御有多种方法。

A. Empirical Backdoor Defenses

  直觉上,基于中毒的后门攻击类似于用相应的钥匙打开一扇门。也就是说,要保证后门攻击成功,有三个必不可少的条件:(1)在(受感染)模型中有一个隐藏的后门;(2)在(受攻击)样本中包含触发器;(3)触发器和后门匹配,如图4所示。因此,可以采用(1)触发-后门不匹配、(2)后门消除和(3)触发消除三种主要的防御范式来防御现有攻击。对上述模式提出了不同类型的方法,表四总结了这些方法,并将进一步说明如下:

 

 

1) Preprocessing-based Defenses:

  基于预处理的防御在原始推理过程之前引入预处理模块,改变了被攻击样本中触发器的模式。因此,修改后的触发器不再匹配隐藏的后门,从而防止后门激活。

2) Model Reconstruction based Defenses:

  与基于预处理的防御不同,基于模型重构的防御旨在去除被感染模型中的隐藏后门。因此,即使触发器仍然包含在被攻击的样本中,预测仍然是无害的,因为后门已经被删除了。

3) Trigger Synthesis based Defenses:

  基于触发器合成的防御除了直接消除隐藏后门外,还提出先合成后门触发器,然后通过抑制合成触发器的影响来消除隐藏后门。这种防御与第二阶段基于模型重构的防御有一定的相似之处。

4) Model Diagnosis based Defenses:

  基于模型诊断的防御通过训练后的元分类器判断所提供的模型是否被感染,并拒绝部署被感染的模型。由于只使用良性模型进行部署,因此自然消除了隐藏的后门。

5) Poison Suppression based Defenses:

  基于毒素抑制的防御在训练过程中降低了中毒样本的有效性,以防止隐藏后门的产生。

6) Training Sample Filtering based Defenses:

  基于训练样本过滤的防御旨在区分良性样本和有毒样本。在训练过程中只使用良性样本或纯化的有毒样本,从源头上消除了后门。

7) Testing Sample Filtering based Defenses:

  与基于训练样本滤波的防御方法类似,基于测试样本滤波的防御方法也旨在区分恶意样本和良性样本。但与以往的方法相比,在推理阶段采用了基于测试样本滤波的方法,而不是训练阶段。只有良性或纯化的攻击样本将被预测,这防止后门激活通过删除触发器。

B.认证后门防御

  尽管已经提出了多种经验后门防御方法,并且对以前的攻击取得了不错的性能,但几乎所有这些方法都被更强的自适应攻击所绕过。为了终止这种猫鼠游戏,Wang等人在基于随机平滑技术的认证后门攻击防御方面迈出了第一步。随机平滑最初是为了证明针对对抗性例子的鲁棒性,其中平滑函数是通过在数据向量中添加随机噪声来从基函数构建,以证明分类器在一定条件下的鲁棒性。Wang等人将分类器的整个训练过程作为基函数,推广经典随机平滑,防范后门攻击。Weber等人证明了直接应用随机平滑,不会提供高认证的鲁棒边界。相反,他们提出了一个统一的框架,检验了不同的平滑噪声分布,并提供了鲁棒性界限的紧密性分析。

C.评价指标

  类似于检测的经验防御的评估度量。基于模型诊断的防御和基于测试样本过滤的防御都是类似检测的方法,其主要目标是识别(不可信的)对象(如经过训练的DNN或测试图像)是否具有恶意。这本质上是一个二元分类问题。通常采用(1)精度、(2)查全率和(3)F1score三个指标来评价他们的表现。准确率、回忆率和f1得分越高,攻击表现越好。

  非检测类经验防御的评估度量。除了类检测的经验防御外,其他类型的经验防御,包括基于预处理的防御、基于模型重构的防御、基于触发合成的防御、基于毒素抑制的防御、基于训练样本过滤的防御,都是非类检测的防御。他们的主要目标是对良性样本和受攻击样本进行正确的预测。因此,也采用良性准确率和攻击成功率(定义见第II-A节)进行评价。特别是,虽然检测过程也涉及到基于训练样本过滤的防御,但上述三个指标(即精度、召回率和F1score)不适合进行评估。这些防御可能会尝试丢弃尽可能多的有毒样本,以减少在过滤后的数据集上创建隐藏后门的可能性,甚至牺牲某些良性样本。

  认证后门防御的评估指标。如第VI-B节所述,现有认证后门防御均采用随机平滑技术。这些方法可以提供一个认证半径,在这个认证半径下,球内的所有扰动都不会改变模型在某些假设下的预测。人们通常使用(1)良性准确率、(2)认证率和(3)认证准确率作为评价指标[24]、[25]。具体来说,良性准确率表明(平滑的)分类器在分类良性样本时的表现如何;认证率是指在半径大于认证半径的情况下,能够认证的样品的比例;认证精度是指在半径大于认证半径的情况下,测试集被正确分类并被认证为鲁棒性的部分。良性准确率、认证率和认证准确率越高,攻击性能越好。

VII. 基准数据集

 

  与对抗性学习相似,现有的相关文献大多集中在图像识别任务上。在本节中,我们总结了所有在表五的相关文献中至少使用过两次的基准数据集。这些基准数据集可以分为三大类,分别是自然图像识别、交通标志识别和人脸识别。第一种类型的数据集是图像分类领域的经典数据集,而第二种和第三种数据集是需要严格安全保证的任务。我们建议未来的工作应该评估这些数据集,以促进比较和确保公平。

VIII. 未来发展方向展望

A. Trigger Design

  基于中毒的后门攻击的有效性和效率与其触发模式密切相关。然而,现有方法的触发是在启发式(如普遍扰动设计),甚至非优化的方式设计的。如何更好地优化触发模式仍然是一个重要的开放问题。此外,触发器设计中只考虑了有效性和隐形性,其他标准,如最小化必要中毒比例等也值得进一步探索。

B. Semantic and Physical Backdoor Attacks

  如III-C节所述,语义攻击和物理攻击在实际场景中对人工智能系统的威胁更为严重,但相对于其他类型的后门攻击,它们的研究还远远落后。对这两种攻击进行更深入的研究以获得更好的理解,将是在实践中减轻后门威胁的重要步骤。

C. Attacks Towards Other Tasks

  后门攻击的成功很大程度上是由于根据目标任务的特点设计了特定的触发器。例如,在视觉任务中,触发器的视觉不可见性是保证攻击隐身的关键标准之一。但是,在不同的任务中,后门触发器的设计可能有很大的不同(例如,在自然语言处理中攻击任务时,将触发器隐藏在句子中,与将触发器隐藏在图像中有很大的不同)。因此,研究任务指定后门攻击具有重要意义。现有的后门攻击主要针对计算机视觉任务,特别是图像分类任务。然而,对其他任务(如推荐系统、语音识别和自然语言处理)的研究还没有得到很好的研究。

D. Effective and Efficient Defenses

  尽管已经提出了许多类型的实证后门防御(见第六节),但几乎所有这些都可以被随后的自适应攻击所绕过。此外,除了基于预处理的防御外,计算成本高也是现有防御的一个普遍缺点。为了跟上后门攻击的快速发展步伐,需要更加努力地设计有效的防御方法(例如,分析现有攻击的弱点,如何降低防御的计算成本)。此外,认证后门防御是重要的,但目前研究很少,值得更多的探索。

E. Mechanism Exploration

  后门生成原理和后门触发器的激活机制是后门学习领域的圣杯问题。例如,为什么存在后门,以及当后门触发器出现时,模型内部发生了什么,在现有的工作中没有仔细研究。后门学习的内在机制应该成为引导后门攻击和防御设计的关键。

posted on 2021-11-14 16:50  夏雪冬蝉  阅读(6067)  评论(0编辑  收藏  举报