【论文笔记】(2015,JSMA)The Limitations of Deep Learning in Adversarial Settings
本文是早期的对抗文章,发表于 EuroS&P 2016会议,最主要的工作是:提出了一个生成对抗样本的算法--JSMA(Jacobian Saliency Map)。然后在实验阶段,作者首先证明了这个方法使用的扰动很小,但对抗性很强,然后给出了一系列的方法用于计算不同的自然样本和不同的类别被攻击的难易程度,最后证明了JSMA 对抗样本难以被人眼识别。
论文的重点部分是 JSMA 算法。
1. 介绍
问题描述:
\(\mathbf{X}\) 是原始特征向量,\(\mathbf{Y}\) 是输出向量,\(\mathbf{F}:\mathbf{X} \mapsto \mathbf{Y}\) 是 DNN 模型表示的函数,\(\mathbf{X^{*}} = \mathbf{X}+\delta_{\mathbf{X}}\) 是对抗样本,其中 \(\delta_{\mathbf{X}}\) 是扰动向量。我们希望这个扰动尽可能的小,即:
其中,\(||\cdot||\) 为根据 DNN 而选择的合适的范数,\(\mathbf{Y}^*\) 是对抗输出。
DNN 的性质导致了公式(1)是非线性且非凸的,所以公式(1)很难解,对此,作者提出了一个基于前向导数(forward derivatives)的方法:构建一个从输入扰动到输出变化的映射,然后使用输出的变化来找到相应的输入扰动。具体方法是引入 \(\mathbf{F}\) 的 Jacobian 矩阵,这个矩阵用于构建对抗显著图(adversarial saliency maps),这个图表示了包含在扰动 \(\delta_{\mathbf{X}}\) 中的输入特征。
本文中,作者选择 MNIST 数据集和 LeNet 模型。
2. 攻击模型的分类
图1. 攻击模型的分类,本文方法属于星号类
2.1 对抗的目标
考虑以下四个影响模型完整性(integrity)的攻击目标,对应于图1的横坐标:
- 降低输出的置信度
- 将输入分类成任意的与初始 class 不同的 class
- 生成输入,这些输入被强制分类成一个特定的 target class
- 将输入分类成一个特定的 target class
2.2 对抗的能力
根据攻击者获得的信息不同,将攻击能力分为以下五个,对应于图1的纵坐标:
- 训练数据 & 网络架构:攻击者访问神经网络全部信息---训练数据集、网络的函数和算法、网络架构 \(\mathbf{F}\)。这是最强的攻击,它可以分析训练数据并完全模拟网络。
- 网络架构:攻击者访问网络架构 \(\mathbf{F}\) 及其参数,包括网络层数、激活函数、权重、bias等。这些信息足够攻击者用于模拟神经网络。本文的攻击算法属于此类。
- 训练数据:攻击者能够收集一个替代数据集,这个替代数据集从DNN训练集分布中采样,但攻击者无法访问网络架构。此类攻击通常使用替代数据集进行训练,用来近似原始的网络。
- oracle:攻击者将原始网络当做 oracle,通过提供输入样本,收集原始网络的输出值。通过观察输入变化和输出变化之前的关系来生成对抗样本。
- 样本:攻击者收集神经网络给出的输入和输出对,其中输出数据被标记,与Oracle不同的是,它无法修改这些输入来观察输入输出变化的差异。这种方法通常需要十分大量的这样的数据对,且攻击能力很差。
3. Approach
3.1 简单的神经网络
首先考虑一个简单的神经网络以分析很小的扰动是如何使用前向导数令神经网络的输出产生大变化:
图2. 简单网络在 \([0,1]^2\) 上的输出。蓝色表示输出为 0,黄色表示输出为 1。
学习一个 AND 函数: 输入 \(\mathbf{X}=(x_1,x_2)\in[0,1]^2\),\(\mathbf{F}(\mathbf{X})=x_1 \wedge x_2\), 其中非整数的输入被四舍五入为 0 或 1,函数的输出原则: \(1 \wedge 1 = 1\), \(1 \wedge 0 = 0\), \(0 \wedge 1 = 0\), \(0 \wedge 0 = 0\)。在一组1000个样本集上使用 BP,学习率为 \(\eta = 0.0663\)。训练后,网络学习到的函数如图2所示,两个水平轴表示 \(x_1\) 与 \(x_2\),垂直轴表示 \(\mathbf{F}(\mathbf{X})\)。
接下来介绍如何在这个网络上生成对抗样本:
作者将前向导数定义为(在训练过程中的) \(\mathbf{F}\) 的 Jacobian 矩阵,对于这个简单的网络,\(\mathbf{F}\) 的输出是一维的,因此矩阵可以简化为向量:
如下图,图3绘制了第二个分量的梯度,即 \(\frac{\partial \mathbf{F} (\mathbf{X}) }{\partial x_2}\),由于这两个分量在\(\mathbf{F}\)上的梯度几乎对称,所以为了图像清晰,此处省略了第一个分量的梯度。可以看到,图3中的尖峰的左侧为输出=0,右侧为输出=1(与图2相对应),这就提供了我们想要的信息:找到令输出等于特定值的扰动。
图3. 简单网络的前向导数(\(x_2\))。\(\mathbf{X}\) 是自然样本(原始样本、干净样本),\(\mathbf{X}^* = \mathbf{X} + \delta_\mathbf{X}\) 是对抗样本,其中 \(\delta_\mathbf{X} = (\delta_{x_1},\delta_{x_2})\),但此处忽略 \(\delta_{x_1}\)。
假设干净样本 \(\mathbf{X} = (1, 0.37)\),对抗样本 \(\mathbf{X}^* = (1, 0.43)\),它们都位于尖峰处且它们的差异很小(\(\delta_{x_2} = 0.05\)),但是它们的输出却很大差异 \(\mathbf{F} (\mathbf{X})=0.11\) 而 \(\mathbf{F} (\mathbf{X^*}) = 0.95\)(这里是训练后网络的输出)。前向导数告诉我们那些区域不太可能产生对抗样本,如找到接近 \((1,0)\) 的对抗样本比 \((1,0.4)\) 的更难,所以在生成对抗样本时,应该专注于前向导数值较大的特征。
根据这个简单网络的例子我们可以得出以下几点:
- 很小的输入扰动可以导致网络的输出产生很大变化;
- 输入域(input domain)中的某些区域(region)难以寻找对抗样本,某些区域易于寻找对抗样本;
- 前向导数可以减少对抗样本的搜索范围。
3.2 推广到一般的前馈神经网络
现在将算法推广到任意非循环的前馈 DNN。为了方便叙述,作者首先给出了一些符号说明:
\(\mathbf{F}\):神经网络在训练中学习到的函数;
\(\mathbf{X} \in \mathbb{R}^{M}\):网络的输入,维度为 \(M\);
\(\mathbf{Y} \in \mathbb{R}^{N}\):网络的输出,维度为 \(N\);
\(n\):神经网络有 \(n\) 个隐藏层;
\(f\):激活函数;
\(H_k\):第 \(k\) 层的输出向量;
\(k\):网络层的index,\(k \in 0,...,n+1\);
\(i\):输入分量的index,\(i \in 0,...,M\);
\(j\):输出分量的index,\(j \in 0,...,N\);
\(p\):神经元的index,\(p \in 0,...,m_k\)(第 \(k\) 层有 \(m_k\) 个节点)。
上图的 Algorithm 1 介绍了构造对抗样本的过程:
- 算法1的输入包括:干净样本 \(\mathbf{X}\),目标输出 \(\mathbf{Y}^*\),网络 \(\mathbf{F}\),最大失真(maximum distortion)参数 \(\Upsilon\) 和特征变化(feature variation)参数 \(\theta\);
- 算法1的输出为:由 \(\mathbf{X}\) 产生的对抗样本 \(\mathbf{X}^*\),满足\(\mathbf{F}(\mathbf{X}^*)=\mathbf{Y}^*\);
- 算法1的大致过程为不断重复以下三个步骤直到网络输出 \(\mathbf{Y}^*\)或达到了最大失真 \(\Upsilon\):
- 计算前向导数 \(\triangledown \mathbf{F}(\mathbf{X}^*)\);
- 根据 \(\triangledown \mathbf{F}(\mathbf{X}^*)\) 构造一个显著图(saliency map)\(S\);
- 使用 \(\theta\) 修改输入特征 \(i_{max}\)
接下来详细介绍这三步。
A)计算前向导数:
与简单网络的公式(2)一样,前向导数本质上是 \(\mathbf{F}\) 对于输入 \(\mathbf{X}\) 的 Jacobian 矩阵,目的是寻找使网络输出发生显著变化的输入分量:
这个矩阵中的第 \((i,j)\) 个元素 \(\frac{\partial \mathbf{F}_{j}(\mathbf{X})}{\partial x_{i}}\) 为输出神经元 \(\mathbf{F}_{j}\) 对于输入分量 \(x_{i}\) 的导数。
从第一个隐藏层的输出开始对输入分量求微分,然后递归地求下一隐藏层对输入分量的微分:
其中,\(\mathbf{H}_k\) 是第 \(k\) 个隐藏层的输出向量,\(f_{k,j}\) 是这层的第 \(j\) 个神经元输出的激活函数,\(\mathbf{W}_{k,p}\) 为第 \(k\) 层、第 \(p\) 个神经元与前一层相连的权重向量,\(b_{k,p}\) 为第 \(k\) 层、第 \(p\) 个神经元的偏置 bias。根据链式法则有:
从而可以推出,输出层(即第 \(n+1\) 层)的第 \(j\) 个神经元对输入分量 \(x_i\) 的导数为:
公式(6)中,除了 \(\frac{\partial \mathbf{H}_{n}}{\partial x_i}\) 外所有的参数都是已知的,因为我们选择的攻击模型为2.2节的第二类(攻击者可以访问网络架构),而 \(\frac{\partial \mathbf{H}_{n}}{\partial x_i}\) 可以递归地一层层的计算得到。因此前向导数后矩阵,即公式(3),是可以计算得到的。
B)对抗显著图:
对抗显著图描述的是攻击者应该扰乱那些输入特征才能使网络得输出产生预期的变化,即输入空间中哪些特征对输出影响最大。
攻击者想将样本 \(\mathbf{X}\) 分成 \(t\) 类(真实类别为 \(label(\mathbf{X})\)),这需要将概率 \(\mathbf{F}_t(\mathbf{X})\) 增大,其他概率 \(\mathbf{F}_j(\mathbf{X}), j\neq t\) 减小,直到 \(t=\arg\max_j \mathbf{F}_t(\mathbf{X})\),可以使用下述的显著图 \(S(\mathbf{X},t)\) 来增大输入特征,从而实现攻击者的目标:
其中 \(i\) 表示输入的第 \(i\) 个分量,即输入空间的第 \(i\) 个特征。公式(7)的第一行表示:如果 \(t\) 类的前向导数为负,或其他类的前向导数之和为正,则拒绝这个特征;第二行表示:反之的话,这两个前向导数就位输入特征的显著性。\(S(\mathbf{X,t})[i]\) 值越高,意味着相应的输入特征要么使模型输出 \(t\) 类的概率更高,要么使模型输出其他类的概率更低,从而将样本错误分类到 \(t\)。
作者又给出了另一种对抗显著图,\(\theta = -1\),与公式(7)的区别是:第一行的约束符号不同,第二行的绝对值位置不同:
C)修改输入样本:
通过对抗显著图可以确定那些输入特征需要被修改/扰动,而扰动多大的值(即 \(\theta\))将在第四节讨论。最大迭代次数,也就是允许的最大失真 \(\Upsilon\) 的选择需要考虑人眼对对抗样本的感知性,因为过大的失真会使人眼可识别对抗样本。
4. Application & Evaluation
4.1 实验
数据集:MNIST;网络模型:LeNet。
作者给出了详细的针对 MNIST 数据集定做的 JSMA 方法,包括 \(\theta = 1\) 和 \(-1\) 两种,分别对应于公式(7)和(8)。
4.2 评估
作者从以下三个方面评估 JSMA:
- JSMA 攻击的成功率如何
- 如何定义样本被攻击的难易程度
- 人眼是否可以识别 JSMA 生成的样本
1)问题1:
作者在MNIST 训练集、验证集和测试集上各选1万个样本,每个样本各生成9个对抗样本,也就是总共27万个对抗样本。实验结果为,本文的方法生成对抗样本的平均成功率为 97.1%,平均失真为 4% 左右,也就是说,对于一个 784 像素点组成的图形来说,平均只需要修改 32 个像素点就可以制造出响应的对抗样本。
2)问题2:
在问题1的实验中,有大约 2.9% 的样本没有成功地生成对抗样本,也就是说它们难以被攻击。对此,作者首先定义了 hardness measure -- \(H(s,t)\) 来计算源类(source class,\(s\))与目标类(target class,\(t\))之间的距离,从而评估源类被扰动成目标类的难易程度。然后,定义了 adversarial distance -- \(A(\mathbf{X},t)\) 来计算样本 \(\mathbf{X}\) 与目标类(\(t\))之间的距离。
3)问题3:
作者在 Mechanical Turk 上对 349 位参与者进行了实验,结果为人眼不能发现 JSMA 对抗样本中添加的扰动。