论文阅读《Defense-Resistant Backdoor Attacks against Deep Neural Networks in Outsourced Cloud》

 

《外包云环境中针对深度神经网络的防御性后门攻击》阅读笔记

摘要:

  训练复杂的深度神经网络的时间和金钱成本过高,这促使资源有限的用户将训练过程外包给云。考虑到不可信的云服务提供商可能会向返回的模型注入后门,用户可以利用最先进的防御策略来检查模型。本文的的目标是开发鲁棒的后门攻击(RobNet),它可以从恶意云供应商的角度规避现有的防御策略。其关键原理是使触发器多样化,并加强模型结构,使后门难以被检测或删除。为了达到这一目标,本文优化了触发器的生成算法,选择具有较大权重并被激活的神经元,然后通过梯度下降计算触发器,使所选神经元的值最大化。与现有的固定触发器位置的工作相比,本文设计了一种多位置裁剪方法,使模型对真实攻击中触发器的轻微位移不敏感。此外,本文扩展了攻击空间,提出了多触发器后门攻击,可以将不同触发器的输入错误分类为相同或不同的目标标签(s)。BadNets和隐藏后门表明RobNet达到攻击的成功率更高,更耐潜在的防御。

1.Introduction

  后门攻击是隐形的,因为后门模型对干净样本保持了相对较高的准确性,用户可能被后门模型欺骗,只测试其在干净验证数据集上的预测能力。后门攻击的后果可能是严重的。考虑以下场景:用户将人脸识别神经网络的训练过程外包给恶意云供应商。云返回一个后门模型,它可能会将任何具有特殊触发器(例如,一个精心设计的玻璃)的人误分类为合法用户,从而破坏用户所在企业的认证系统。

  主流的防御策略有两种,即基于模型的防御以及基于数据的防御。基于模型的防御检测模型是否包含后门。基于数据的防御研究输入是否包含触发器。本文的攻击手法主要针对基于剪枝的后门防御,提出了一种针对外包云环境下的深度神经网络的鲁棒的有目标后门攻击(Robnet)。Robnet的设计是为了抵抗最先进的防御策略。其主要的原理是增加触发器的多样性,从而避免触发器被检测到,并加强与触发器相关的神经元,从而减少神经元被修剪的可能性。使用用户上传的干净训练数据集建立良性模型后,Robnet分两步进行:触发器生成以及后门注入。触发器对于后门攻击的成功至关重要。与随机选择触发器不同,本文开发了一种新的触发器生成算法来生成与DNN结构密切相关的模型依赖触发器。更具体地说,首先选择一个权重较大的神经元,并被目标误分类标签的输入强烈激活。触发器使用梯度下降迭代更新,以最大化所选神经元的值。由于神经元的权值大,激活强度大,现有的剪枝技术不太可能消除神经元,从而保留了模型中的后门。触发器生成后,通过数据中毒将后门注入到良性模型中。触发器被修补以清除训练样本,形成中毒样本,这些样本被用来重新训练模型。不同于现有的假设一个固定的触发位置的工作,我们提出了一个多位置修补方法来实现触发多样性,这被证明是扰乱防御策略。我们还设计了针对相同或不同误分类标签产生不同触发器的多触发后门攻击,有效扩展了攻击空间。

本文贡献如下:

  • 开发了一种更强大的后门攻击,可以规避外包云环境中各种最先进的防御策略。
  • 提出了一种新的依赖模型的触发器生成算法,该算法考虑了与触发器相关的选定神经元的权值和激活。神经元对目标误分类标签的影响较大,不易被网络剪枝技术去除。本文提出了一种多位置补丁的方法,增加了触发器的多样性,从而避免被检测到。
  • 设计了多触发后门攻击,有效地扩展了单个后门模型的攻击空间。该模型可以将具有不同触发器的输入错误分类为相同或不同的目标标签。
  • 在各种深度神经网络和各种先进的防御策略上进行了大量的实验,验证了Robnet(包括单触发器和多触发器攻击)的有效性。实验结果表明,Robnet具有较高的攻击成功率和抗防御策略。

2.Preliminary

  安全是机器学习外包的关键问题之一。虽然很多信誉良好的云服务提供商应该是值得信任的,但许多不那么值得信任的云服务提供商可能会向用户提供经过操纵的机器学习模型,比如带有后门的模型。意识到这一潜在风险,许多防御策略被提出,以检测或删除可疑机器学习模型的后门。如图1所示,本文的主要目的是从恶意云服务提供商的角度设计一个鲁棒的后门攻击,旨在躲避用户的防御策略。

 

 

图1 我们提议的攻击概述。神经元中的数字表示其激活状态,连接旁边的数字表示权重。在单触发攻击中,选择第一全连接层中的黄色神经元。在多触发攻击中,针对不同的误分类标签选择黄色和蓝色神经元。触发器的产生是为了刺激选定的神经元,例如,在图示的单触发器攻击中,黄色神经元的激活从2增加到12。生成的触发器被修补到训练样本的不同位置。再训练后,所选神经元与标签之间的连接的权重被加强,例如,在图示的单触发攻击中,从0.1到0.7。

 

 

   后门攻击的目的是向DNN注入后门,使后门模型将具有特定触发器的输入错误分类为一个假标签,同时保证对干净输入的高预测精度。一个性能良好的后门攻击应该同时实现高攻击成功率(对于带有触发器的恶意输入)和高预测准确性(对于干净的输入),但这两个目标是矛盾的。要达到平衡的性能,关键在于选择合适的触发器。考虑到DNN在图像分类中最常见的应用,触发器通常是放置在图像样本特定位置的图标。触发器的模式可能与DNN模型无关(随机),也可能是根据DNN模型精心生成的(依赖于模型)。直观地说,依赖模型的触发器比随机触发器产生更好的攻击成功率,但需要复杂的触发器生成过程。在后门攻击中,除了触发器的模式,触发器的大小也很重要。触发器越大,攻击成功率通常越高,但(正常输入的)预测准确性就越低。确定触发器后,向DNN模型注入后门,攻击者对训练数据集进行毒害,重新训练受害者DNN模型。现有的后门攻击包括单触发攻击和多触发攻击。在单触发攻击中,只有一个触发点,通常位于图像样本的固定位置。在多触发器攻击中,在输入样本的相同或不同位置产生不同的触发器,针对相同或不同的误分类。多触发攻击扩展了攻击空间,但比单触发攻击更加复杂。本文考虑了单触发器和多触发器后门攻击。由于认识到后门攻击的潜在危害,人们提出了许多防御策略来减轻这类安全威胁。现有最先进的防御方法包括基于模型的防御和基于数据的防御。基于模型的防御专注于检测接收到的模型是否被后门,而基于数据的防御专注于检测输入样本是否包含触发器。最先进的防御方法包括剪枝防御、神经净化、Strip和ABS。

  • 剪枝防御:剪枝是一种模型压缩技术,专门用于防御后门攻击。假设恶意样本激活的神经元对干净样本不那么活跃,剪枝可以通过去除深度神经网络的冗余连接来关闭后门。注意,剪枝策略并不检测模型是否包含后门,但我们认为剪枝是一种基于模型的防御策略,因为它只处理模型。当用户从验证数据集输入干净的输入时,首先记录每个神经元的激活次数。然后,用户按激活的升序迭代地从深度神经网络中修剪神经元,并在每次迭代中检验修剪后的神经网络的准确性。当验证数据集的精度达到一个下限时,修剪过程将终止。
  • 神经净化:神经净化(NC)是一种基于模型的防御方法,它试图检查模型是否包含后门。假设对于后门模型,修改输入使其误分类为后门攻击的目标标签比修改其他非目标标签容易得多。因此,NC尝试为每个标签恢复一个触发器,并检查最小的触发器是否明显小于其他触发器。如果是,则认为模型已被后门,并将此触发器视为实际触发器。NC在检测带有较小触发器的后门攻击时是有效的,例如,对于MNIST, 18%的图像,但对于那些带有较大触发器的后门攻击可能会失败。

  • Strip:Strip是一种基于数据的防御方法,用于检查输入是否包含触发器。将输入图像样本进行多次复制,并将每个副本与不同的图像样本合并,形成扰动样本。由于模型的随机性,如果模型是良性的,则期望这些扰动样本的预测结果具有较高的熵值;如果模型是恶意的,则期望这些扰动样本的预测结果具有较低的熵值,因为带有触发器的输入与目标误分类标签有较强的关联。关键是确定熵阈值,以区分良性输入和带有触发器的输入。
  • ABS:人工大脑刺激(ABS)是最新的基于模型的防御策略,它扫描深层神经网络,以确定是否有后门。这是受到了分析人类大脑神经元的电子大脑刺激(EBS)的启发。基于深度神经网络,ABS通过改变一个神经元的激活,观察相应的输出差异。当给予适当的刺激时,受后门影响的神经元表现为显著增加靶标记的激活,并可能抑制其他标记的激活。ABS利用刺激分析对后门触发器进行逆向工程。ABS对单触发攻击检测有效,但对多触发攻击检测无效。

 

3.Threat model

  在外包云环境中,有两方,即外包深度神经网络训练的用户和培训深度神经网络的云服务提供商。更具体地说,用户与云服务提供商就神经网络的细节进行协商,包括DNN的深度(层数)、每一层的大小以及激活功能。用户可以上传训练数据集,也可以委托云服务提供商收集训练数据集。云提供商训练并向用户返回一个深度神经网络。从云接收模型后,用户在验证数据集上测试其准确性。只有当测试精度满足由领域知识或性能需求确定的目标阈值时,用户才会接受该模型。我们考虑的威胁模型中,云提供商是对手,其目标是返回一个后门但性能良好的深度神经网络。与之前的工作(假设用户只测试所接收模型的预测准确性)不同,本文考虑了一个更强大的情况,即用户利用各种高级防御策略来检查模型是否被后门。

4.Robnet: Construction Details

 

A.Overview

关键步骤:触发器生成、后门注入

1)触发器生成:

  触发器有两种,随机触发器和模型依赖触发器。由于随机触发器攻击成功率低,且容易被防御策略检测到,因此本文采用模型相关触发器。

  本文的触发器生成算法的主要思想是决定在一个空的mask(mask覆盖了触发器在图像上的位置)中的值分配,以便某些神经元被激发得最多。如图1所示,mask为矩形,所选神经元以黄色或蓝色突出显示。mask的最终赋值将产生依赖于模型的触发器。在单触发器攻击中,触发器将所选神经元的激活值从2提高到12。触发产生的关键在于选择最适合后门攻击的神经元。由于有针对性的后门攻击旨在将恶意输入错误分类为目标标签,因此目标是寻找与目标标签密切相关的神经元。更具体地说,当网络接收到属于目标标签的(干净)输入时,我们选择具有最高权重和激活度的神经元。在第五节中,我们证明了我们所选择的神经元不会被网络剪枝操作删除,因此所提出的攻击对基于剪枝的防御策略具有鲁棒性。

2)后门注入:

  对于给定的干净样品(x,c),当它是真实标签时,构造恶意样品(x*,c*),其中*是带有触发器的干净样品,而c*是目标标签。由于触发器可以放置在图像的不同位置,可以构造多个恶意样本。

  攻击成功率对触发位置高度敏感。如果测试时的触发位置与训练时稍有不同,攻击成功率就会急剧下降。为了提高攻击的鲁棒性,本文在干净样本的不同位置放置相同的触发器,形成多个恶意样本,毒害训练数据集,并重新训练良性模型注入后门。这样,攻击在触发位置就更鲁棒。

  在再训练过程中,利用干净的训练样本和相应的恶意样本对深度神经网络进行再训练,目的是加强所选神经元与目标标签之间的联系。如图1中单触发器后门攻击所示,经过再训练后,所选神经元与输出神经元(标签1,目标误分类标签)之间的权值从0.1上升到0.7。需要注意的是,为了保持对干净样本的高预测精度,只对触发产生时所选神经元层和输出层之间的层进行再训练。在重新训练之后,一旦触发器出现在输入中,后门模型将输出目标标签,但在没有触发器的情况下将正常行为。

  除了单触发器后门攻击,本文还开发和评估多触发器攻击,其中对手生成多个触发器,目标是相同或不同的标签。需要注意的是,针对单个标签的多触发攻击中,在不同的补丁位置产生的触发器是不同的,而在单触发攻击中,为了增强攻击的鲁棒性,我们将特定位置产生的相同触发器贴到不同的位置。如图1所示,基于同一神经元(蓝色突出显示)生成的触发器a和b的目标为相同的标签0,但位置不同。基于黄色神经元生成触发器c。注意,触发器可能有相同的位置,但目标不同的标签。多触发攻击扩展了后门攻击的攻击空间,使攻击者可以通过一个后门模型实现多种攻击目标。例如,一个后门交通标志识别模型可能会将所有带有触发器a的输入错误地分类为一个停止标志,而将所有带有触发器b的输入错误地分类为右转向标志。

  以人脸识别任务为例,在表1中说明了不同攻击适用的攻击场景。

 

 

Step1:触发器生成

 

 

 

 1)Mask Determination:Mask是一个矩阵,其中的行数和列数符合图像样本的高度和宽度。矩阵中的元素在触发器区域中值为1,在其余区域中值为0。通过确定触发器的形状、大小和位置,在Mask中形成触发器区域。对于触发器的形状和位置,遵循对后门攻击的现有工作。触发器的形状为矩形,触发器的位置在图像样本的右下角。选择合适的触发大小是攻击成功率和攻击隐蔽性之间的权衡。更大的触发可以提高攻击成功率,但更容易被发现。通过大量实验,本文发现触发器大小为图像的7%可以带来理想的性能。值得注意的是,7%属于神经净化能检测到的范围,但在第五节中指出,神经净化在抵御Robnet方面是无效的。

2.1)Neuron Determination:选择单个神经元进行激活。为了找到最有效的神经元,首先决定神经元应该驻留在哪一层,然后在选定的层中确定神经元。

2.2)Layer Selection:没有选择卷积层,因为卷积层中的神经元只与前一层的一小组神经元相连,因此对输入触发器的响应较弱。出于类似的原因,不选择池化层。全连接层是理想的,因为每个神经元将前一层的所有神经元连接到下一层的所有神经元,对输出有很大的影响。由于良性的深度神经网络会在被选择层和输出层之间进行再训练,以便进行后门注入,所以没有选择接近输出层的层,因为缺少再训练的空间。综合以上因素,选择DNN的第一全连接层进行神经元选择。

2.3)Neuron Selection:为了达到最佳的攻击性能,所选神经元应对恶意输入敏感,并与目标误分类标签有较强的关系。所选层为l,N代表l中神经元的集合,J代表l-1层神经元的集合,w为两层之间的连接权值。现有方法选择受前一层影响最严重的神经元*(即对前一层的权重总和最大)。

 

 

  而(2)中所选神经元对恶意输入和良性输入均不加区别地敏感,忽略所选神经元对目标误分类标签的影响。以往的大部分神经元选择方法没有考虑基于激活的剪枝防御策略。被选中的神经元可能激活度较低,会被修剪,导致后门攻击失败。

  在仔细研究网络剪枝技术的基础上,提出了一种鲁棒神经元选择机制。结果表明,当输入特定类型的输入时,某些神经元更活跃。本文的想法是,当神经网络得到目标误分类标签的干净输入时,找到同时具有大权重和大量激活的神经元。这样,所选择的神经元与目标误分类标签具有较强的关联,且由于其权重较大,被修剪的可能性较小。

  为了实现这一目标,将目标误分类标签的大量干净样本输入到良性DNN模型中,并记录所选层中每个神经元的激活次数和权值。选取激活数和权重之和最大的神经元。

 

 

   其中,Xc是目标误分类标签的良性样本集,I[F(x)=n]表示被输入x激活的神经元。λ平衡权重和激活数。神经元的激活反映了神经元与目标标签输入的连接,权值表征了神经元对下一层神经元的影响。对于一个较大的λ,我们更倾向于一个被目标标记的输入激活的神经元。对于较小的λ,我们更倾向于一个对下层神经元有更大影响的神经元。根据实证研究,我们将λ设为0.65,以平衡这两个方面。平衡良好的λ体攻击成功率高,而不平衡的λ体攻击成功率低。干净输入的预测精度(PA)受λ的影响较小,因为λ主要与触发和有毒输入有关。

 3) Trigger Formation:给定Mask和所选神经元,使用梯度下降法更新Mask赋值,使代价|vn,t - ut|2最小,vn,t是神经元n在第t次迭代的值,ut是目标值,l-1层由K个神经元组成,则第l层第n个神经元的激活值为

  目标激活值设定为所选层神经元的最高激活值。如果所选神经元的值已经是所选层中最高的,则继续增加其值,直到收敛或迭代次数达到极限。在最后一次迭代中,从Mask区域提取触发器。

 Step2:后门注入

  后门注入过程包括两个步骤:数据投毒和模型再训练。

  1)数据中毒:给定生成的触发器mask M,对手对清洁样本添加触发器,构建中毒数据样本。

 

  为了提高Robnet的鲁棒性,提出了一种多位置修补方法,通过将触发器修补到干净样本的不同位置,生成多个有毒数据样本。例如,将生成的相同触发器同时补丁到图2中干净样本的位置6和位置8,以构建具有相同目标类的两个有毒样本。这两种类型的有毒样本都被添加到有毒数据集。

 

 2)模型重训练:利用生成的触发器构建中毒训练数据集,并结合干净和中毒数据集对良性神经网络进行重新训练,得到后门模型。通过这种方式,后门模型对干净的输入保持了很高的预测精度,但将恶意的输入错误地分类到目标标签。只有触发器生成中选择的层和输出层之间的层被重新训练。

 

多标签攻击

  大多数现有的后门攻击只考虑导致错误分类到单个目标标签的单个触发器。多个触发器可以丰富恶意输入的攻击效果,而不影响干净输入(干净输入不包含触发器)的预测精度。图2展示了在实验中使用的典型位置,但可能的位置并不局限于图中。本文考虑两种情况,即针对单个或多个错误分类类别的多触发攻击。

  对于目标在同一个类标签上的多个触发器,在不同的位置生成不同的触发器。每个触发器的生成方式与单触发器攻击相同。为了构建有毒数据样本,将每个触发器贴到相应的位置,以构建多个有毒数据样本。例如,我们在位置6(如图2所示)生成带有triggerA的maskMA并在位置8生成带有triggerB的maskMB,两者都针对相同的误分类标签c。我们可以构建两个中毒样本(x+A⊙MA, c)和(x+B⊙MB,c)进行模型再训练。在攻击过程中,测试样本可能存在多个触发器,而且触发器都会误分类为标签c。注意,与单触发器攻击中的多位置补丁不同,多触发器攻击(针对一个错误分类标签)将不同生成的触发器补丁到图像的不同位置进行数据中毒。多触发器攻击和多位置修补都使攻击对测试样本中的触发器位置具有更强的鲁棒性。

  对于针对不同类标签的多个触发器,我们在相同或不同的位置生成不同的触发器。每个触发器针对不同的错误分类标签,并以与单触发器攻击相同的方式生成。为了构建有毒数据样本,我们将每个触发器贴到相应的位置,以构建多个有毒数据样本。例如,在位置6生成标签为c1的带有triggerA的maskM,在位置6生成标签为c2的带有triggerB的maskM,在位置8生成标签为c3的带有triggerC的maskM‘,以此构造有毒样本进行模型的再训练,在攻击期间,测试样本中只会出现一个触发器,即x+A⊙M会被误分类为标签c1,x+B⊙M会被误分类为标签c2,x+C⊙M'会被误分类为标签c3,对手不会使用x+A⊙M+C⊙M'这样的样本进行攻击。

  需要注意的是,所选神经元与目标误分类标签相关,而与触发器位置无关,所生成的触发器与所选神经元和触发器位置相关。在多触发器同标签攻击中,选择同一个神经元在不同的位置产生不同的触发器。在多触发多标记攻击中,同一神经元可能被选择为不同的目标标记(神经元被两个标记强烈激活)。在这种情况下,将在相同的触发器位置为不同的目标标签生成相同的触发器。解决这个问题的一个简单方法是为不同的目标标签选择不同的触发位置。另一种方法是改进神经元的选择过程。例如,我们以标签Ca和标签Cb为目标,一个神经元a对两个标签的加权和和激活数最高。我们可以选择神经元a作为标记Ca,选择第二好的神经元作为标记Cb。在实验中,我们证明了多触发攻击的有效性。

5.Implementation and Evaluation

 A.Experiment Setup

  考虑两种最先进的后门攻击BadNets和Hidden Backdoor(HB)作为baselines,它们具有与我们相同的威胁模型。BadNets使用随机触发器,HB使用不可见的随机触发器。虽然BadNets可以达到较高的预测准确率和攻击成功率,但我们的实验表明,BadNets可以被我们评估的这四种防御策略防御。HB的不可见性影响了它在攻击成功率方面的表现,我们表明,即使触发是肉眼无法察觉的,我们评估的四种防御策略中的三种都能检测到HB。

  使用三种数据集MNIST、GTSRB、CIFAR-10。

  采用预测精度( A)和攻击成功率(ASR)来评价Robnet的有效性。预测精度测量测试数据集中正确标记的干净样本的比率。在数学上,预测的准确性被定义为

 

 

   其中T是干净输入的集合,F*是后门深度神经网络,c对应的真实标签。

  攻击成功率计算为被后门深度神经网络误分类到目标标签的恶意样本的百分比。数学上,攻击成功率定义为

 

 

   其中,*表示恶意输入的集合,c*是目标标签。

B.Evaluation Results

 1)后门攻击的有效性:首先从单触发器攻击和多触发器攻击两方面来验证Robnet的有效性,然后评估触发器数量对Robnet性能的影响。

  单触发攻击:在将Robnet与其他最先进的攻击进行比较之前,我们首先研究中毒比例对攻击性能的影响。中毒率是指训练数据集中良性样本被中毒的百分比。由表2可知,随着投毒率的增加,攻击成功率会增加,但预测精度会略有下降。即使中毒率为1%,robnet平均攻击成功率也可达到97%,同时保持了较高的预测精度。

  表三总结了单触发后门攻击的性能。在相同的设置(例如,中毒比例(20%),再训练操作)下,Robnet的表现比BadNets和HB都要好得多。注意,我们将中毒比例设置为20%,因为HB在较低的中毒比例下不起作用。本文提出的触发器生成算法考虑了神经元与目标标签的关联,因而具有较高的攻击成功率。相比之下,两个baselines都选择了一个随机后门触发器,它不能强烈激活内部神经元(特别是与目标标签相关的神经元)。

 

  图3展示了考虑不同修补位置时单触发攻击的性能。实验使用MNIST数据集进行。正如之前提到的,在攻击期间,在与训练样本完全相同的位置将触发器贴到测试样本是困难的,并且轻微的差异可能导致较大的性能下降。因此,Robnet允许攻击者将触发器补丁到图像样本的不同位置,增加了攻击的鲁棒性。请注意,本文通过在干净样本的不同位置使用相同的触发器构建中毒样本并重新训练神经网络来实现这一点。自然地,随着可能的补丁位置的增加,攻击成功率和预测精度都会降低。当只考虑一个位置时,攻击成功率可达99.59%,预测准确率可达98.68%。当有8个可能的位置时,攻击成功率下降到91.75%,预测准确率为90.29%,仍然是很高的。这证实了Robnet在攻击期间对触发器的修补位置具有很强的鲁棒性。

  多触发器攻击:将单触发器攻击扩展为具有两种设置的多触发器攻击,即单标签和多标签。我们对这两种场景进行了实验,结果如图4所示。触发器数量设置为2个。结果表明,两种方案都能达到较高的攻击成功率和预测精度。一般来说,由于多标签场景更加复杂,涉及神经网络中更多的神经元,所以单标签场景比多标签场景具有更高的攻击成功率和预测准确率。

 

  在多触发器攻击中,触发器的数量对性能有着至关重要的影响。表4显示了生成不同数量触发器时的攻击成功率和预测准确率。本文在MNIST中进行实验。结果表明,在这两种情况下,攻击成功率和预测精度都随着后门触发器数量的增加而降低。在相同标签的情况下,更多的触发器使得攻击对测试样本中不同可能的触发器位置更加健壮,但在再训练过程中会引入更多的变化,从而降低预测的准确性。在多标签场景中,针对不同标签的多个触发器导致神经元选择和再训练过程更加复杂,影响攻击性能。

  总体而言,多触发攻击的攻击成功率和预测准确率均在90%以上,验证了Robnet的有效性。

 2)最先进的防御策略的鲁棒性:使用四种最先进的防御策略针对robnet、BadNets和HB。

  剪枝:在单触发多位置场景下,对所有三个数据集上Robnet、BadNets和HB的后门模型进行剪枝。需要注意的是剪枝方法去除了低激活的神经元,但Robnet也可以抵制基于权值的剪枝方法。结果如图5所示。BadNets和HB在去除较大比例的神经元后,攻击成功率和预测准确率均明显下降。这说明网络剪枝在防御BadNets和HB方面是有效的。相比之下,Robnet的攻击成功率随着更多的神经元被修剪而保持稳定。这是由于在输入大量干净样本时选择了具有高激活度的神经元。因此,在修剪过程中,神经元更有可能被保留下来。

  神经净化:将NC应用于Robnet的后门模型和所有三个数据集的baselines。其中,Robnet采用多触发器同标签模型,在图2中的位置1和位置8,针对同一标签有两个不同的触发器。NC为标签生成一个潜在的触发器,通过将该触发器作为目标标签最大化误分类输入的概率。优化结果是一个Mask(指示触发器的位置)和相应的模式。由于我们的触发器的位置不是固定的,生成的NC的mask的位置不会产生太多的信息。因此,我们重点比较NC生成的触发模式与后门攻击的实际触发模式的差异。如图6所示,对于robnet和HB的后门模型,NC产生的触发图案与任何原始的触发图案都有很大的不同。相反,NC恢复的触发器与BadNets的实际触发器相似。对于NC的MAD (平均绝对偏差)异常检测,我们将阈值设为1.4,即任何MAD大于1.4的标签都视为目标标签。实验表明,BadNets在所有情况下都能成功检测到,而HB和robnet能逃避检测。这说明NC在检测BadNets方面是有效的,而利用多触发器同标签方法和HB的ROBNET则不有效。HB能够逃避NC的原因是其中毒样本(用于训练DNN)与良性样本相似(触发器是隐藏的)。因此,考虑到后门模型,NC无法逆转触发器,基于MAD的离群值检测也无效。同样,NC对于我们的多触发器多标签攻击也是无效的。

Strip:将Strip应用于ROBNET的后门模型和所有三个数据集的baseline。其中,ROBNET采用单触发多位置攻击,同一触发器分别位于位置1和位置8,如图2所示。随机选择2,000个干净图像样本和2,000个带触发器的输入。每个输入由200个随机选择的图像叠加。干净输入与恶意输入的分类结果熵分布如图7所示。很明显,在BadNets和HB中,恶意输入和干净输入的熵分布被很好地分离,这使得用户能够以90%以上的概率检测到恶意输入。相比之下,在ROBNET中,清洁输入和恶意输入的熵分布非常相似。重叠是相当大的,因此很难区分恶意输入和干净输入。由于随机性,干净的样本通常具有较高的熵分布。BadNets和HB在固定位置添加相同的触发器,创建一个具有低熵的独特模式。这样,带触发器的恶意输入的熵大大低于干净输入的熵,从而很容易被Strip检测到。相比之下,我们提出的单触发多位置攻击会在不同的位置对相同的触发进行修补,这使得攻击具有更多的随机性和高熵性。因此,Strip不能根据熵分布来区分ROBNET的干净样本和恶意样本。

  ABS:将ABS应用于robnet的后门模型和CIFAR-10的baseline,因为作者只在CIFAR-10 DNN模型上发布了他们的检测api。其中robnet采用多触发器多标签方案,位置分别为1和8,如图2所示。ABS利用神经元的异常刺激来反转触发器,以某一逆向工程木马触发器的攻击成功率为目标。我们发现ABS在BadNets、HB和ROBNET中分别检测到21、11和4个可疑神经元。当我们设置REASR≥90%时,ABS在BadNets、HB和ROBNET中分别检测到4、2和0个可疑神经元。ROBNET回避ABS的可能原因可能是我们破坏了ABS的假设,即目标误分类标签仅由一个神经元激活(用不同的触发器激活多个内部神经元)。

 

 Last. Discusson

A.触发的可见性

  与大多数现有的针对后门攻击的工作一样,Robnet不考虑在视线中隐藏后门触发器。传统的想法是,可见的触发点很小,可以忽略,或者可以伪装成商标或水印。目前只有少数的工作考虑了隐形触发器,而实现隐形可能会大大降低攻击成功率。由于隐形是对抗性攻击的最终要求,所以隐形触发器在未来的后门攻击中也值得研究。

B.模型转换

  用户可以对从互联网上下载的模型进行再培训,以便将再培训的模型转移到自己的任务中。在这种情况下,模型中注入的后门可能会在再培训过程中被禁用。模型再培训或迁移学习最常见的方法包括冻结、微调和知识提炼。目前大多数针对后门攻击的工作都没有考虑模型转移。目前只有少数后门攻击涉及迁移学习,但要求学生模型必须保留教师模型的目标误分类标签,这在很多情况下并不是一个保证。模型再训练/转移后,保持较高的攻击成功率和防御能力是未来的发展方向。

 C.物理世界

  没有在物理世界中评估robnet。在物理世界中,后门样本可能会受到不同方面的影响,如光照、模糊、噪声。只有一项研究调查了物理世界中对面部识别的后门攻击。然而,只在物理世界中进行实验,没有特定的算法设计来处理后门攻击的物理可行性限制。在未来设计后门攻击时要考虑更多的物理因素。

D.潜在的防御

针对ROBNET的一种可能的防御方法是分析测试样本的特征空间。由于DNN模型可以有效提取图像的特征,防御者可以先对每一类的良性训练数据进行特征分析,并分析特征共性。然后,防御者通过分析数据与其对应标签之间的特征共性是否存在较大差异来检测每个测试数据样本。由于后门样本在目标类别下的特征会偏离正常样本的特征,所以容易被检测和清洗。

 

  本文介绍了一种在外包云环境下针对深度神经网络的健壮后门攻击的设计、实现和评估。在本文中,作者设计了一种新的后门触发器生成算法,以激励对目标标签影响最大的神经元,同时也能避免网络修剪。此外,还开发了多位置补丁机制,以增加触发器的多样性,以规避多种先进的防御策略。在MNIST、GTSRB和CIFAR-10等不同数据集上进行了大量的实验,验证了单触发器和多触发器攻击的有效性。

 

posted on 2021-11-07 13:43  夏雪冬蝉  阅读(620)  评论(0编辑  收藏  举报