《MM-DB》.md
abstract
后门攻击是针对 DNN 分类器的一种重要的对抗性威胁,当嵌入后门时,一个或多个测试样本将被(错误地)分类到攻击者的目标类中。本文关注文献中常见的 post-training 后门防御场景,其中防御者的目的是在没有任何访问训练集的情况下检测一个训练后的分类器是否受到了后门攻击。许多训练后的检测器被设计用来检测一个或几个特定的后门攻击(例如,补丁替换或附着攻击)。当攻击者使用的后门嵌入函数(防御者未知)与防御者假设的后门嵌入函数不同时,这些检测器可能会失效。
相比之下,我们提出了一种 post-training 防御,它可以检测任意类型的后门嵌入,而不对后门嵌入类型做任何假设。我们的检测器利用了后门攻击的影响,独立于后门嵌入机制,基于 softmax 层之前的分类器输出进行检测。对于每个类,都估计了一个最大边际统计量。然后,通过对这些统计数据应用一个无监督的异常检测器来执行检测推断。因此,我们的检测器不需要任何合法的干净样本,并且可以有效地检测具有任意数量的源类的后门攻击。
在四个数据集上,对于三种不同类型的后门模式和各种攻击配置,展示了几种最先进的方法。最后,我们提出了一种新的、通用的方法检测并缓解后门攻击。
1. Introduction
虽然深度神经网络(DNNs)在许多研究领域都很成功,但它们很容易受到攻击。后门攻击或木马是一种重要的攻击类型,当一个或多个测试样本嵌入了后门模式时,DNN 分类器将预测攻击者的目标类。后门攻击通常是用源类样本毒害分类器的训练集,并推理过程嵌入了相同的后门,并实现将样本标记为目标类。由于成功的后门攻击不会降低分类器在干净测试样本上的准确性,因此它们不容易被检测。
针对后门攻击的防御有时会在分类器的训练阶段期间部署,但这也通常是不可行的(例如,考虑到专有系统和遗留系统)。在这里,我们考虑一个实际的 post-training 场景,其中防御者是分类器的下游用户(例如预训练模型),目的是不访问训练集的前提下,检测分类器是否被攻击。除此以外,防御者也不能访问任何未受攻击的分类器作为参考。
许多 post-training 场景下的防御都假设拥有少量干净、合法的样本,且这些样本可以使用:
-
对假定的后门模式进行逆向工程,这是异常检测的基础;
-
训练样本为存在后门和未存在后门的 shadow-net,在此基础上训练一个二元分类器预测分类器是否被后门攻击。
然而,这些方法假设攻击者使用的嵌入后门模式的机制是已知的。
对于基于逆向工程的防御,可能无法有效地检测与逆向工程不同的模式类型的后门攻击。对于元分类方法,需要有一个后门模式池来训练具有后门的 shadow-net,但这些方法可能不能很好地推广到训练池中不存在的后门模式。
因此我们提出了一种基于最大边际的后门检测方法(MM-BD),该方法不对攻击者使用的后门模式类型不做任何假设。我们的检测方法是基于后门分类器输出(在softmax之前)的非典型性来判断 model 是否存在后门。我们提出了一种新的最大边际检测统计量 maximum margin detection statistic(MM)。该统计量是通过解决一个边际最大化问题获取的。我们将展示使用这些统计数据可以有效区分后门和非后门,不论攻击者使用的后门类型如何。
基于 MM 的检测不需要 clean samples(即被植入后门的模型 samples)。完全无监督的异常检测器将应用最大边际统计来进行检测推断。值得注意的是,我们的方法允许它检测具有多个任意攻击目标类别的后门攻击,并且比许多现有的方法具有更好的计算效率。
我们还提出了一种基于 MM 的后门缓解方法(MM-BM),它需要使用一些 clean samples。该方法使用一组优化的上界来抑制最大可能存在后门的神经元激活,而不降低分类器在干净样本上的准确性。与现有的方法不同,我们不修改 DNN 架构或任何训练过的参数。
我们的贡献总结如下:
-
我们揭示了在受害者分类器的输出函数中,MM 可以作为攻击的标志(对于具有足够高攻击成功率的攻击),无论后门模式类型是哪种。在此基础上,我们提出了 MM-BD,一种不需要对后门模式类型进行任何假设的 post-training 后门检测方法。
-
MM-BD 不需要任何 clean samples。此外,它可以准确地,有效地检测后门攻击,无论攻击者使用的目标类别数量多少。
-
我们展示了 MM-BD 的性能。
-
我们评估了 MM-BD 对许多新出现的后门攻击的效果。这些攻击包括另外两种后门模式和六种攻击设置。这些攻击大多假设攻击者对训练过程有很强的控制能力;相比之下,MM-BD 的假设条件却很弱。
-
我们提出了一种新的后门缓解方法(MM-BM)
2. background
本节提供了关于后门攻击和防御的背景。从 Sec 2.1 对机器学习系统的新威胁描述开始,Sec 2.2 我们引入了经典的后门攻击。Sec 2.3 和 Sec 2.4 我们分别给出了后门防御和高级后门攻击的分类。
2.1. Threats to Machine Learning Systems
机器学习,特别是深度神经网络,开始被用于各种安全关键应用,如欺诈检测和医疗。然而,ML 系统容易受到对抗性攻击的威胁。通常,ML 系统涉及一个训练阶段和一个推理阶段。因此,对抗性攻击也可以分为训练阶段攻击和推理阶段攻击。
推理阶段攻击的目的是导致系统产生攻击者指定的输出,或收集关于模型特征的信息。例如,对抗性逃逸攻击使用了精心制作的对抗性样本误导 ML 模型做出不正确的预测。另一个模型提取攻击的例子,该攻击复制了受害者模型的函数映射规则,这是模型所有者的一个重要资产。
另一方面,训练阶段攻击的目的是通过修改训练集来破坏模型。例如,数据中毒攻击通过使用错误标记的样本感染训练集,从而降低受害者模型的预测精度。本文关注的后门攻击也是一种训练阶段攻击,因为受害者模型将植入一个后门。
2.2. Classical Backdoor Attacks
后门攻击是一种训练阶段对抗性攻击,主要针对 DNN 分类器。对于具有样本的分类域 X 和标签域 Y,经典的后门攻击旨在让受害者分类器学习将感染样本分类为攻击者的目标类,并正确地分类干净的测试样本。对于图像,常见的后门模式类型包括:
-
\(\tilde{x} = [x+v]_c\),扰动为 \(v\),\(||v||_2\) 为不可察觉的微小扰动,\([·]_c\) 是一个裁剪函数;
-
局部补丁 \(u\) 作为嵌入,通过 \(\tilde{x} = (1-m)⊙x + m⊙u\) 使用图像二进制掩码 \(m\),其中 \(||m||_1\) 不可感知性,\(⊙\) 表示元素乘法;
-
一个局部或全局 patten \(u\) “混合” 使用一个图像二进制掩码 \(m\) 和一个混合因子 \(α∈(0,1)\),\(\tilde{x} =(1−α·m)⊙x+α·m⊙u\),其中 \(α\) 接近于 0 且不可感知。
遵循 BadNet 的协议,发起后门攻击的经典方法是通过感染分类器的训练集。攻击者首先收集少量嵌入了后门模式的源类样本,然后重新将它们标记到目标类。然后将这些样本插入到受害者分类器的训练集中。这种经典的后门攻击被大多数关于后门防御所考虑,包括本文。但与之前的大多数作品不同的是,我们的防御也能有效地对抗能力更强大的攻击者发起的高级后门攻击。
2.3. Backdoor Defenses
后门防御可以在训练阶段、post-training 或推理阶段进行部署。每一个场景都有不同的防御者角色和能力。
训练过程中的后门防御的目的是从可能感染的训练集中生成一个无后门的训练集。现有的防御从训练集中通过识别异常值来检测并去除可疑样本,从而只对非离群、可信样本进行训练,或是修改训练损失或训练程序,以更好地应对模型对感染数据的鲁棒性。
在推理阶段部署的后门防御旨在检测嵌入了后门的测试样本,也可能寻求纠正这些样本上的决策。其中一种方法通过重叠大量的良性样本或随机噪声来扰动输入样本,然后使用集成预测结果来检测,从而识别出输入空间的可疑区域。
在本文,防御者无法访问训练集。post-training 的一个主要防御任务是后门检测,即检测一个给定的分类器是否被后门攻击。现有的防御要么
-
对所有类的假定后门模式进行逆向工程,并检测这些逆向工程模式中是否相对于其他模式存在异常(例如,具有异常小的图案尺寸);
-
训练一个元分类器识别被检查的分类器中提取的特征。
另一个 post-training 的防御任务是后门缓解,它旨在从受害者分类器中删除学习到的后门映射。现有的主流方法要么微调分类器的参数,要么修剪可能被后门激活的神经元。
2.4. Advanced Backdoor Attacks
clean-label 攻击仅使用目标分类中收集的样本来感染训练集。这些样本被扰动,删除了原始的类鉴别特征与后门模式相关联的特征。这些样本没有重新标记,这有助于避免在训练期间被怀疑。
也有先进的自适应攻击被提出以逃避特定的后门防御。
标签平滑攻击被设计为绕过基于后门模式逆向的防御。
Wasserstein-based 的后门攻击是为训练阶段部署的聚类防御而设计的,可以绕过假设公共后门模式的防御。
然而,大多数高级后门攻击需要强大的对抗性能力,这将在 Sec.3 讨论。即便如此,在我们的实验中,我们将评估 MM-BD 应对上述高级后门攻击的检测能力。
3. Threat Model
3.1. Attacker’s Goals and Capabilities
在本文中,我们主要关注针对图像分类器的后门攻击。我们的方法在其他领域的扩展将在 Sec 6.5 中讨论。
我们考虑了三种具有不同目标和能力的攻击者来彻底评估我们提出的防御。
basic attacker: Sec 2.2. 中讨论的经典后门攻击 —— 该攻击将一个后门目标类、任意数量的源类样本和一个常见的后门模式相关联,当后门模式被嵌入到源类后,源类的样本应该被错误地分类到目标类,而无后门的样本被正确地分类。攻击者有能力感染训练集。但是攻击者既不能访问训练集中的样本,也不能访问训练过程本身。在本文中,我们将 MM-BD 和 MM-BM 与其他方法进行了比较。
Advanced attacker: 这些攻击者的动机除了基本误导预测,还包括:比如人脸识别的坚定性,以及对后门防御的回避性。大多数这些附加的目标都不能由基本攻击者实现。因此,高级攻击者被赋予了额外的能力,例如:
- 收集足够的数据和训练代理分类器的能力
- 完全控制受害者的训练过程。
后者是一个特别重要的假设,它只在少数情况下有效,例如,有一个内鬼或训练被外包给一个恰好是攻击者的第三方。在我们的实验中,MM-BD 也将对文中提到的几个高级后门攻击进行评估 in Sec 6.3.
Adaptive attacker: 本文所考虑的最强攻击者是自适应攻击者,它除了具有基本攻击者的能力以外,还具有击败已安装防御的能力。自适应攻击者比前两种攻击者更强,自适应攻击者需要假设具有对训练过程的完全控制和对防御的充分了解。在 Sec 6.6.1,我们基于这些能力创建了一个强大的、优化的自适应攻击。我们证明,为了绕过 MM-BD,攻击者需要解决一个复杂的 min-max optimization problem,这是很耗时的。
3.2. Defender’s Goals and Assumptions
在本文中,我们考虑了实际的 post-training 防御场景,其中防御是在分类器被训练后设置的,且防御者不访问训练集。post-training 防御最重要的目标是检测分类器是否受到后门攻击。如果检测到攻击,用户可以选择一个替代分类器。否则,应该减轻后门攻击的影响,以便:
- 当一个测试样本嵌入了后门模式时,分类器能够正常进行预测,
- 对干净、无后门的测试样本的分类精度没有显著降低。
与训练后的防守场景相关的假设总结如下:
- 防守者事先不知道是否有攻击。这是训练后后门检测问题有意义的基本假设。
- 防守者无法获得关于后门模式的信息。这一假设被许多现有的训练后检测器放宽了 —— 防守者应该对后门模式类型或后门如何实现是不可感知的(例如,Sec 2.2 中附加扰动后门模式的小ℓ2范数)然而,MM-BD 严格地没有对后门模式做出任何假设。
- 防御者无法访问分类器的训练集。防御者是分类器的用户,或遗留系统的用户。在前一种情况下,分类器的训练集可能不公开可用,而在后一种情况下,分类器早已被不被维护。
- 不能针对同一应用场景训练的干净分类器。否则,防御者可以直接使用干净的分类器来代替需要检查的分类器。更重要的是,如果有干净的分类器可用,post-training 后门检测问题将是一个更容易的 “半监督” 问题,因为有现成的 clean 分类器可以被使用作对比。
- 防御者能够独立地收集一个小的、干净的数据集,其中包含来自域中所有类的样本。大多数现有的 post-training detector 使用了这种假设。然而,MM-BD 不需要任何干净的样品来进行检测。这使得 MM-BD 也能够适用于 clean samples 非常难以获取的情况。
4. Related Work
Post-training backdoor detection methods.
现有的方法包括一系列 “元学习” 方法,其中大量标记为 “攻击” 或 “无攻击” 的 shadow-networks 将作为样本以训练一个检测器。但是这些方法使用了一个后门模式类型池,当攻击者实际使用的类型不在池中时,可能会导致检测失败。此外,训练 shadow-networks 需要相对大量的干净样本,这意味着需要大量的计算量。
另一个检测器试验为每个假定的目标类[16]-[20],[22],[78]的后门模式。这种逆向工程是使用一组干净样本或使用模型反演获得的模拟样本。然后,检测推断是基于统计数据,从估计的后门模式(例如,估计的掩码的补丁替换后门模式的ℓ1规范)。然而,逆向工程依赖于后门模式类型的知识。此外,大多数这些基于反向工程的方法都需要一些干净的样本,这并不总是像我们在 Sec 3.2. 中讨论的那样可用的。
相比之下,MMBD 不依赖于后门模式类型的知识,也不需要任何干净的样本。此外,当后门攻击只涉及少数源类时,一些基于逆向工程的方法会失败,如[18],[21]所示。[18]通过显著增加了计算复杂度来解决了这个问题。虽然[21]通过一个复杂的优化过程来估计源类和目标类,但我们的方法可以准确地检测具有任意数量的源类的后门攻击,并且计算效率高,这将在我们的实验中所示。
Post-training backdoor mitigation methods.
在[16],[60],[61]中,一个检测到的分类器对大量的干净的样本进行微调,以“解开”后门映射。在[62],[81]中,可能与后门模式相关的神经元根据其激活或(利普希茨)连续性的模量而被修剪。虽然我们的论文的主要焦点是后门检测,在 Sec 5.3,我们还提出了一种方法,对于大多数类型的后门模式,使用很少的干净样本,并且不对分类器的任何原始参数进行微调。我们的方法也可以与现有的方法相结合,以获得更好的性能。
后门防御处理各种后门模式类型。有许多后门防御能够解决各种后门模式类型。特别是,大多数训练阶段的后门防御,如[7]-[14],和一些推理阶段的后门防御,如[51],[55],[57],并没有考虑到任何特定类型的后门模式(即,它们是后门不可知论的)。然而,对于本文所关注的训练后后门检测问题,防御者无法访问任何实际的后门模式,这与前两种防御场景不同。因此,一些训练后的检测器倾向于依赖于对后门模式不协调的定量机制的假设。例如,[16]处理了基于补丁的模式,[18]假设了难以察觉的扰动模式,而[82]考虑了甚至不涉及后门模式的攻击。与此相反,我们的训练后检测器对后门模式的合并机制没有做任何假设。
5. Method
Sec 5.1. 中讨论 detector 背后的关键思想;
Sec 5.2. 提出了我们的 detector 程序;
Sec 5.3. 中提出了一种 mitigation method。
5.1. Key Ideas
与现有的 detector 不同(现有的后门检测方法往往是基于 small patch size 或 small perturbation size 的后门模式进行检测),而我们的 detector 是基于后门攻击的影响(分类器的 logit)进行探测,独立于后门模式。
考虑一个目标类为 \(t∈Y\) 的后门攻击,分类器的 logit 函数表示为 \(g_c: \mathcal{X} → \mathbb{R}\)(假设 X 不失一般性)。对于所有的非目标类别 \(c∈Y \backslash t\),无论后门是基于什么模式进行构建(small patch 或 small perturbation),我们都可能观察到:
也就是说,后门攻击目标类的最大边际统计值将会比所有其他类的最大边际统计值大得多。
Why a backdoor attack causes the above phenomenon?
后门模式是一种常见的 pattern,后门嵌入在训练集的部分样本中以感染模型,这种嵌入在图像领域可以是 small patch,又或者是颜色;同样的 pattern 嵌入到测试样本中将导致测试阶段的错误分类。
一些最近提出的高级后门攻击方法使用一些特定样本作为后门模式(Sec 2.4) 然而,这些后门模式仍然具有共同的语义特征,并且在某些潜在的嵌入空间中彼此相似。因此,这类后门攻击仍然可以被我们的方法检测到,这将在 Sec 6.3. 中展示。
相比之下,与后门模式无关的类鉴别特征通常会表现出很高的可变性。例如在不同视角、范围、光照条件下捕捉到的同一物体,该物体可能会决定模型将样本区分为某个类别。极端情况下,类鉴别特征可能来自同一类的样本中非常常见的特征,我们可以将类鉴别特征理解为模型 “内在的” 后门,该后门很难与攻击者植入的后门区分开来。排除这种内在后门的一般解决方案仍然是一个未解决的问题。
后门模式的共同特征所覆盖的类鉴别特征对于后门攻击时至关重要的,这有利于受害者分类器在训练期间可以很容易地学习后门模式。然而,过于重复、常见的后门模式嵌入到训练集也可能诱发不可避免的模型过拟合,后门攻击的存在会极大增强目标类的 logit,更重要的是,同时抑制了其他所有类别的 logit。因此,由于 “增强” 和 “抑制” 效应,目标类的 logit 和 logit 之间将产生异常大的边际。
我们考虑了 CIFAR-10 数据集上对于 “deer” 作为目标类的后门模型和 clean 模型,对于这两个分类器,我们使用相同的 MM-BD 协议来最大化 “deear” 分类的 logit。两个分类器的所有类的 logits 如 Fig.9a 所示。即使我们没有故意抑制除 “deer” 类之外所有类的 logits,但这些 logits 显著减少。因此,虽然后门攻击即便可能逃过仅基于 maximizing logit 的探测器,但它将很容易被 MM-DB 利用 logit “增强” 和 “抑制” 效应检测到。
值得一提的是,相同方向的工作《Effective backdoor defense by
exploiting sensitivity of poisoned samples》还揭示了后门样本的内部特征表示将由后门模式主导,而不是由良性的类鉴别特征主导,而这种主导主要是由过拟合引起的。然而,《Effective backdoor defense by
exploiting sensitivity of poisoned samples》关注的是训练过程中的防御,有训练集可用,而我们的工作是训练后的,有训练集不可用。
上述推理在 Fig.1 中展示了可视化示例。
我们考虑具有三个类别的 2-dim 输入,每个类别的样本分布由一个高斯混合模型 GMM 生成。我们每个类别生成 500 个训练样本,并发起了两次后门攻击(目标为类别 3),两次攻击分别插入 10/100 个(BA-10/BA-100)后门样本。对于每个后门攻击,我们都训练了一个 3xhidden_layers 的多层感知机,这在两种后门攻击实施后,在 clean 测试样本上达到了接近 91% 的准确率,即后门攻击几乎不会影响到模型对干净数据集的预测精度。BA-10 和 BA-100 在测试阶段的攻击成功率分别为 92% 和 99%。
在 Fig.1 中,对于每个后门攻击和每个类,我们绘制了一个类的 logit 和其他两个类中最大的 logit 之间的差值(为了更好地可视化,只保留正值)。我们观察到,后门目标类( Fig.1f Fig.1g)对两种后门攻击都有异常大的最大边际值,与 Eq.1 结果一致。此外与 BA-10 相比,BA-100 对于目标类别的最大边际值非典型性更为明显(请注意,攻击者会尽可能选择更高的中毒率,即感染更多的训练样本,因为这将产生更高的攻击成功率)。
为了给我们的假设提供另一个观点,请考虑一个简单的线性模型 \(g(·): \mathcal{X} → \mathbb{R}^{|\mathcal{Y}|}\),其输出的嵌入能够被关联到类别 \(c ∈ Y\),\(g_c(x) = w'_c x\),其中,\(w_c\) 表示与类 \(c\) 相关的权值向量,它与输入\(x\) 具有相同的维度;而模型对于输入 x 分类到类 c 将具有具有最大的关联的 logit \(g_c(x)\)。
同时假设,训练后模型能够正确分类所有的样本,置信度高于 \(τ\),通过正确类的 margin 进行评估(即通过该类的 logit 类减去所有其他类中的最大 logit)进行评估:
假设一个后门模式 \(v\) 被合并到一个 clean 训练图像 \(x_s\)中(其原本的类别 \(s \not ={t}\)),并被重新标记为目标类 \(t\)。Eq2. 可表示为表示:
基于 Eq.2 中的可信边际假设,对于 clean \(x_s\) 我们有:
整合 Eq.3 和 Eq.4:
也就是说,后门目标类的最大边际的下界至少为 \(2τ\),大于所有类别的合法样本的下界。
5.2. Detection Procedure
Estimation step.
对于每个类 \(c∈Y\),我们估计最大边际统计量 by 如下公式:
注意,x 是一个闭凸集;因此,x 上的 logit 函数是连续有界的。换句话说具有局部极大值。然后,根据[86]中的定理 3.2,保证了在 x 中与 x 上投影的任意随机初始化的梯度上升的收敛性。正如通常的做法一样,我们在 x 中执行多个随机初始化(例如,对于图像,像素值在区间[0,1]中均匀地随机初始化),并选择最大的局部最优解。与基于逆向工程的防御相比,假设的后门模式嵌入类型和真正的攻击后门模式类型之间可能存在不匹配,我们的优化问题不需要假设一个后门模式嵌入类型。此外,实验发现,基于逆向工程的防御使用所有非目标类的干净样本的后门模式估计,当这些类大多数不是源类[21]时,是失败的。相比之下,我们的方法可以检测具有任意数量的源类的后门攻击,并且不需要知道来自该域的任何合法样本。
Detection inference step.
我们提出了在论文《Detection of backdoors in
trained classifiers without access to the training set》中给出的无监督异常检测器。
记每个类 \(c∈Y\) 的估计最大边际统计量为 \(r_c\),其中最大值为 \(r_{max}=max_{c∈Y} r_c\)。我们假设,当存在后门攻击时,\(r_{max}\) 将与目标类相关联,并且将是非目标类的最大边际统计量分布的一个离群值。
因此,我们使用不包括 \(r_{max}\) 在内的所有统计数据来估计一个零分布 \(h_0\)。考虑到最大边际是严格正的(在我们的实验中估计的最大边际的理论和经验),我们在实验中选择了零分布的单尾密度形式,例如伽马分布。为了评估 \(r_{max}\) 在估计的零值下的非典型性,我们计算了一个阶统计量 p-value:
其中,\(K = |Y|\) 为域中类的总数。很容易观察到,pv 在 “无攻击” 的 null 假设下,在 [0,1] 上服从均匀分布。因此,如果 pv < θ,我们认为检测置信度为 1−θ(例如 θ=0.05)。如果检测到后门攻击,则 \(r_{max}\) 关联的类被推断为后门目标类。
5.3. Mitigation of Backdoor Attacks
当检测到后门攻击时,受害者分类器对检测到的目标类以外的类所做的预测,或者对 clean 测试样本所做的预测可能仍然是可信的。一个选择是减轻后门攻击。
我们的缓解方法是基于观察到的后门攻击,诱导每一层的一个神经元子集有异常大的激活。这种 “large activation” 现象也是 [19] 中后门检测方法的基础,尽管需要几个超参数,例如,来识别负责大激活的神经元。
相比之下,我们对每个神经元都应用一个特定的优化上限,以抑制由后门攻击引起的任何可能的大规模激活,而不会显著降低分类器在 clean 样本上的准确性。
设 \(σ_l: \mathbb{R}^{n_{l-1}} → \mathbb{R}^{n_{l}}\) 为受害者分类器的第1层的激活(作为前一层激活的函数)。在这里,为了简洁,我们没有明确地表示每一层中的参数,因为在我们的缓解过程中,它们都不会被修改。然后,任何类 \(c∈Y\) 和任何输入 \(x∈ \mathcal{X}(= \mathbb{R}^{n_0})\) 的 logit 函数都可以写成:
其中,\(w_c∈\mathbb{R}^{n_{l}}\) 和 \(b_c∈ \mathbb{R}\) 分别是与类 c 相关的权重向量和偏差。
对于每一层 \(l = 2,...,L\) 我们还表示一个边界向量 \(z_l∈\mathbb{R}^{n_{l}}\),这样,对于每个类c∈Y和任何输入x,具有有界激活的 logit 函数都可以表示为:
其中,\(Z = {z2、···、zL}\) 和 \(\bar{σ}_l(·;z_l)=min \{σ_l(·)\}\) for any \(l = 2, ..., l\)(其中“min”运算符应用于向量的每个分量)。为了在不影响分类器在干净测试样本上的性能的情况下,找到每个神经元的最小激活上界,我们建议在一个小集合 D 的干净样本上解决以下问题:
其中,\(\mathbb{1}[·]\) 表示指标函数,π 为最小精度基准(如 set π = 0.95)。在这里,我们最小化边界向量的 ℓ2 范数,以惩罚在每一层中具有绝对值过大的激活。
为了实际解决上述问题,我们提出使用梯度下降法使以下拉格朗日量最小化:
其中 Z 的初始化值很大。Eq.11 的第一项目的是保持 D 中样本的分类器对数不变。这种设计不仅有助于满足 Problem.10 中的精度约束,而且避免了给定样本与的类标签相关联,从而进一步增长(即过拟合),允许在有限的样本下实现缓解。λ 会自动更新,以满足 Problem.10 的约束。这个过程在 Alg.1 种描述。注意,我们将 Z 中的值初始化得足够大,以便最初不执行激活边界/饱和。这可以很容易地通过喂食干净的样品来获得一个粗略的激活范围,然后将初始上限设置为比典型激活更大的幅度。
最后,通过对对数 \(\{\bar{g}_c(x; Z^∗)\}_{c∈\mathcal{y}}\),得到一个具有后门缓解的类后验。
6. Experiments
实验主要在四个具有不同分辨率、大小和数量的图像基准数据集上进行: CIFAR-10、CIFAR-100、TinyImageNet、GTSRB。
6.1. Main Experiments for Backdoor Detection
下面展示了后门检测器 MM-BD 在检测精度和计算效率方面的有效性(与一些最先进的 post-training 检测器相比)。这里我们关注经典的后门攻击,对其他高级后门攻击设置和自适应后门攻击显示在 Sec. 6.3.
6.1.1. Setting
我们从后门攻击文献中考虑了三种常见的后门嵌入类型:附加、补丁替换和混合(与中相关的嵌入函数。Sec 2.2)。MM-BD 对基于 基于 warping-based 的后门模式和特定于样本的后门模式的有效性在 Sec 6.3. 中显示。
我们将考虑以下五种后门模式。对于 additive 后门模式,我们考虑了来自 [18] 的全局 “chess board” 模式和来自 [7] 的局部 “1-pixel” 扰动。对于补丁替换后门模式类型,我们考虑一个来自 [2] 的 BadNet 模式和一个 “unicolor” 补丁[16]。对于混合后门模式类型,我们考虑一个来自 [18] 的 “blended” 噪声补丁。这些后门模式的例子和更多的细节在 Apdx A.2. 中。
和大多数现有的攻击方法一样,我们考虑使用单个目标类的后门攻击(为每个攻击随机选择目标类)。但是,我们允许从一个或多个 source 类中选取目标类 —— 为了简洁起见,这两个源类设置分别表示为 ‘S’/‘M’。对于每个 ‘S’ 设置的后门攻击,将随机选择源类。对于TinyImageNet,我们为 ‘M’ 设置的每个后门攻击随机选择10个源类;而对于其他三个数据集,除了目标类之外的所有类都被选择为源类。通过上述标记,使用 “chess board” 后门模式和多源类的后门攻击被表示为 “chess board-m”。
对于 CIFAR-10,我们分别为 5 种不同的后门模式和 S/M 模式的所有 10 个组合创建了 10 个后门攻击。对于 CIFAR-100 和 GTSRB,我们分别为 5 个后门模式创建了 5 个后门攻击集合,它们都使用了 M 设置。我们没有为这两个数据集创建单源类的后门攻击,因为每个类中的图像数量有限,不能从单个类生成足够的后门训练图像来启动成功的后门攻击。对于TinyImageNet,我们只生成了一个设置为 “BadNet-M” 的后门攻击,因为在这个数据集上训练一个分类器的时间非常高。对于每个集成,使用 [2] 中经典的“数据中毒”协议,根据指定的设置独立生成 10 个不同的攻击。其他配置,包括在每个集合中为后门攻击创建的后门训练映像的数量,都放在 Apdx A.3.
我们为每个后门攻击训练了一个分类器。用于对 CIFAR-10、CIFAR-100、TinyImageNet 和 GTSRB 进行后门攻击的 DNN 架构分别为 ResNet-18 [89]、VGG-16 [90]、ResNet-34 [89] 和 MobileNet [91]。
对于每个数据集,我们还创建了一个干净分类器的集合来评估错误检测率。与为相同数据集训练的干净分类器相比,我们创建的所有后门攻击都是成功的,攻击成功率(ASR)高,而干净测试精度(ACC)的下降可以忽略不计。更多的细节显示在 Apdx A.4.中。
6.1.2. Detection Performance.
我们比较了 MM-BD 与六种最先进的训练后检测方法: NC [16]、TABOR [17]、ABS [19]、PT-RED [18]、META [24] 和 TND [22]。我们遵循了这些方法的原始实现,只做了微小的变化(例如,选择最好的检测阈值来最大化它们的性能)。特别是对于 META,我们使用官方代码来训练 “元分类器” 进行检测。
对于MM-BD,我们使用梯度上升与收敛准则7ϵ=10−5和30随机初始化解决了问题(6)。这些选择对检测精度并不重要。在推理阶段,将检测阈值设置为 θ = 0.05,即检测置信度为 0.95,这是统计假设检验的经典阈值,在本文的所有实验中都保持不变。
在 Tab.1,我们展示了 MM-BD 与我们创建的后门攻击集成上的其他方法相比的检测精度,并报告了每种方法使用的每类Nimg的合法图像数量。成功的检测需要检测到后门攻击和正确推断出目标类。我们还显示了被认为不被每个检测器攻击的干净分类器的比例。我们只评估了 CIFAR- 10 上的 META,因为将 META 应用于对其他数据集的后门攻击的计算成本过高(超过24小时)。PT-RED,估计每个(源、目标)类对的后门模式,我们降低其复杂性通过估计后门模式 CIFAR-100,每个假定的目标类,GTSRB——否则,在这些数据集上重复实验将不可能由于大量的类复杂。
同样,由于时间限制(和空间限制),我们分别只包括了CIFAR-100、TinyImageNet和GTSRB的少数任意选择的后门攻击集合的检测结果。对于所有后门攻击集合的MM-BD的完整结果都在Apdx中。B.1.
正如我们在 Sec 4. 中讨论过的。现有的训练后检测器假定一种或几种后门模式类型。例如,NC在检测补丁替换后门模式(BadNet&单色)的后门攻击方面具有较强的能力,为此设计了它;但NC无法检测到具有本地加性后门模式(1像素)的后门攻击8。ABS和META也报告了类似的结果,它们是为了进行补丁替换/混合的后门模式(BadNet、单色和混合),而没有针对附加的后门模式(棋盘和1像素)。
相比之下,PT-RED在附加后门模式(棋盘和1像素)上表现良好,它是为此设计的,但对于其他后门模式(BadNet-blend)通常无效。与其他方法相比,TABOR和TND并没有表现出具有竞争力的性能,因为它们对后门模式的形状或颜色采用了额外的约束条件。与这些方法不同,MM-BD对所有后门模式都具有较高的检测精度,对所有数据集的误检出率较低;也就是说,其性能对后门模式类型很大程度上对后门模式类型不变。
即使ABS联合部署ABS(对补丁后门模式BadNet、单色和混合有效)和PT-RED(对附加后门模式棋盘-1像素有效)(检测),对具有后门攻击的分类器的检测精度与MM-BD相当,但有更多的错误检测和计算成本的显著增加。此外,NC、TABOR、ABS和TND假设后门攻击具有多个源类(“M”设置);因此,它们很容易对具有单一源类的后门攻击失败(“S”设置)。然而,MM-BD在检测具有任意数量的源类的后门攻击时通常是有效的,如Tab所示。1,因为它没有对源类的数量做出任何假设。最后,与其他方法不同,MM-BD不需要任何干净的图像进行检测。
6.5 在其他域上的检测性能
虽然我们主要关注图像分类任务,但后门攻击(和防御)已经扩展到其他领域,如自然语言处理、语音识别、视频和点云。在这里,我们展示了 MM-BD 对针对语音和点云的后门攻击的有效性。
6.5.1 语音命令分类
我们使用在语音命令数据集上训练的 10 个干净和 10 个后门模型来评估语音域上的 MMBD。后门模式的维度为40(语音信号的维度为8000)。该模式使用 BadNet 嵌入功能进行嵌入,中毒率为 10%。如 Tab.6 所示,该方法在该语音域上具有良好的检测性能。
6.5.2.点云的分类
在点云域上,我们使用 [97] 中提出的攻击来评估我们的检测方法。后门模式是一组小的插入点(examples)。模仿真实的物体,比如由行人携带的球。训练了 10 个良好模型和 10 个受攻击的 DGCNN 模型。Tab.6 表明,该域的检测性能不如语音域好。正如在 [97] 中所揭示的,在点云数据集上训练的模型中存在内在的后门,这意味着,对于一个干净的模型,将会有一个普遍的模式,当嵌入到测试示例中时,可能会导致错误分类。这也许可以解释为什么检测结果不如其他领域强。
[97] Z. Xiang, D. J. Miller, S. Chen, X. Li, and G. Kesidis, “A backdoor attack against 3D point cloud classifiers,” in ICCV, 2021.