As a reader --> Transferable Clean-Label Poisoning Attacks on Deep Neural Nets

Transferable Clean-Label Poisoning Attacks on Deep Neural Nets  “DNN中可转移的干净标签投毒攻击”

  written by: Chen Zhu * 1 W. Ronny Huang * 1 Ali Shafahi 1 Hengduo Li 1 Gavin Taylor 2 Christoph Studer 3 Tom Goldstein1

 

干净标签攻击:不同于“数据污染”攻击将错误标注的样本加入训练集中,干净标签攻击将标注正确但经过精细调整的样本加入训练集中。具体方法为 -> 对标注正确的样本x添加扰动,使其变为xp,人工标注者仍可对xp进行正确标注,但由于xp与xt相近,经xp投毒后训练得到的分类器模型会将xt错误标注为目标类~yt(可能为yp)。

 

abstract

  本文提出了一种“凸多边形攻击(CPA)”,用以实现在未知受害模型输出、结构及训练数据的情况下,成功的可转移的干净标签投毒攻击。在这种攻击中,有毒样本会在整个特征空间中包围目标图像。同时,本文使用dropout提升了攻击的可转移性。实验表明,仅投毒1%的训练集,就可以使攻击成功率超过50%。

introduction

  DNN需要大量的数据训练和超参数的调整。许多模型训练者选择从网上等不受信任的来源获取数据,这导致了许多安全问题的出现,数据投毒便是其中之一,它旨在通过修改模型训练集中的样本来控制模型在预测过程中的行为。本文中作者认为,投毒攻击不同于逃逸和后门攻击,后两者需要修改预测过程中的样本。

  而干净标签攻击也拥有其与众不同之处,它无需控制标注过程,即恶意样本即使被专家正确标注,仍会保持其恶意性。这种攻击只需将恶意样本投入网络中,等待使用者的下载。同时,干净标签攻击仅针对特定样本错误分类,使得我们无法通过查看整体性能感知攻击的存在。

  目前,对于干净标签攻击的研究处于白盒环境中,故本文旨在制作干净标签毒物,并将其转移到一个黑盒图像分类器上。而与逃逸攻击不同的是,攻击者无法访问受害模型,故要实现这个目标尚存在两个挑战:(1)训练过程中的决策边界比未知但固定的决策边界更难预测。(2)攻击者无法依赖于查询过程。(2)意味着这种攻击更具危险,因为攻击者可以将恶意样本分布式投放在网络中等待抓取,以攻击不止一个模型。

  本文假设攻击者可以收集到一个与受害模型相似的训练集,故攻击者可以用该集合训练一个替代模型,并优化出一个毒物集使得目标样本被毒物形成的凸多边形包围。由于目标分类器(受害模型)存在过拟,目标样本会被标注为与毒物相同的分类。

注:本文定义一次成功的攻击为:(1)有不明显的微小扰动 (2)不会改变模型精度

comparison

特征碰撞攻击(FCA)&  凸多边形攻击(CPA)

 

 

蓝色虚线圆点代表target(不在训练集内),红色虚线原点代表poison points(在训练集内)。攻击目标是让target被错误分类。

在FCA攻击中,我们要找到红色虚线圆点到蓝色虚线圆点的最短距离;CPA攻击中,目标是使两个红色虚线圆点的连线到蓝色虚线圆点的距离最短。

 

 实验结果表明,与黑盒条件下的FCA相比,本文提出的CPA成功率更高,在网络的多个中间层中执行该攻击,效果更好。实验中还发现,在制作p.p(poison points)时使用Dropout会提高攻击的可转移性。

 The Threat Model

 攻击者知识:本文假设攻击者无法访问受害模型,但已知受害模型训练样本的分布,并可以收集到与之相似的样本集去训练一个替代模型。

受害者模型训练方式:

(1)transfer learning:可转移的学习。预先训练的特征提取器φ(参数固定)和一个应用于具体模型的线性分类器(参数W,b用实验中的训练集X在φ(X)上通过微调得到)。

(2)end-to-end learning:端到端的学习。从头开始对特征提取器和线性分类器同时训练。对于这种训练方式下的模型进行攻击更加困难,因为φ的参数会受到p.p的影响。

 

Transferable Targeted Poisoning Attacks

1. 困难点:有目标的逃逸攻击只需要使受害模型将一个添加了扰动的图片误分类如某一特定类别,此时求解有约束的优化问题可以变为一个求解到决策边界的最短路径问题。

  与之相对,有目标的投毒攻击需要改变数据分布,在此分布基础上训练模型使得受害模型将目标样本xt进行错误分类至~yt。一个简单的思路是在~yt中寻找与xt尽可能特征相近的p.p,由于训练过程中通常存在过拟的情况,使得受害模型容易将xt误分类入~y。但有时,直线距离短并不意味着攻击的成功,正如在前面FCA和CPA攻击的比较中图中看到的那样。

2. Feature Collision Attack

 

 

 xb是从目标类别中选出的基准样本用以制作xp,φ是一个预先训练好的特征提取器。

首先,xp被分类入target class,之后,使xp的特征与xt的距离小于xp的决策边界,那么xt也会被分类入target class。

 

 

 存在的问题:不同的φ有不同的特征空间,但在相同训练集上训练不同模型存在一个对抗子空间已经被证明。所以FCA攻击选择使用以下方式对一系列的模型{φ(i)}i=1m优化(归一)一组p.p {xp(j)}j=1 k

 

  但这种攻击仍存在着一定的问题:(1)添加了扰动的图像会出现明显的模式,引起人工标注者的注意。如下图所示,FC Poison中有明显的规律性和鱼类的特征。 在黑盒情况下,对于p.p的约束更多。明显的模式也会更多。

 

 

(2)缺乏可转移性。在所有模型特征空间内使p.p都接近xt是很困难的。

3. Convex Polytope Attack

  本文提出CPA想要寻找到更宽松的约束条件。

 

  本文提出上述两个状态是等价的,由于只要求xt被xp形成的凸多边形包围,使得p.p可以在更大的范围内分布,也就所希望找到的更宽松的约束。所以本文需要处理的问题是同时找到一个poison集和一个系数c集使得xt位于m个模型的特征空间中p.p形成的凸多边形中:

 

m -> model数    k -> poison数   cj(i) -> 组合系数   ε ->不会被察觉的最大扰动

  由于对组合系数不加约束,xt也就无需接近凸多边形的某一个特殊点,故这是一个更宽松的约束,且不会形成特定的模式,提高了攻击的不可感知性。

   对于FCA来说,最终形成的其实可以看做是一个(以最小距离形成的)球状空间,而CPA形成的是一个球的外接凸多面体空间。V凸多面体>V,因此可以容忍较大的泛化误差,也提高攻击的可转移性。

4. An Efficient Algorithm for Convex Polytope Attack

   本文的具体实现算法如下:

 

c(i)的维度小,所需的计算量就小。当计算出满足{xp}的{ci}后,再对{xp}进行梯度优化,最后将{xp}投影至xb的ε步长范围内,修剪后再进行下一次计算。

 

5. Multi-Layer Convex Polytope Attack.

   实验发现仅在特征空间内进行攻击并不能实现一次更强大且成功的攻击。因为poison全部来自于同一个类,故模型很可能对xt和xp的分布进行准确概括,最终使得xt分类正确。且实验表明只在最后进层进行CPA时,容量较小的模型更易攻击成功。基于这个发现,本文尝试将攻击投入多层联合网络中。

 

上面的式子将一个DNN分解为多个浅层神经网络φ1n。在多个浅层网络中实施攻击,增加了替代模型的多样性和攻击的可转移性。

6.Improved Transferability via Network Randomization

   不难理解的是,要想进行成功的攻击,我们可以通过构造任意多的poisons达到目的。但由于计算机内存的约束,这样的攻击也是不现实的。而为了进一步提高攻击的可转移性,我们选择在5中分解的浅层网络中引入网络随机化机制,每一层对模型随机采样(以概率p关闭某层的一些神经元,其余以1/(1-p)的概率活跃),这样就可以得到指数级别的网络进行训练。

 Experiments

数据集:CIFAR10   使用大型数据集预训练模型,在相似但不相关的数据集上微调模型

两个替代模型集   S1:SENet18   ResNet50  ResNeXt29-2x64d  DPN92   MobileNetV2    GoogLeNet

          S2:   SENet18   ResNet50  ResNeXt29-2x64d  DPN92 

            黑盒模型测试  ResNet18   DenseNet21

            dropout = 0.2  0.25  0.3     ε = 0.1    lr = 0.04

受害模型 transfer learning: lr = 0.1   end-to-end learning: lr = 10-4

 

 与FCA相比,CPA拥有更高的攻击成功率

 

 左图表示替代模型训练集和受害模型训练集的重合程度不同时,CPA的成功率。训练集重叠率高,攻击越容易成功;但反之重叠率越低,攻击更现实。

右图中的训练是end-to-end:transfer中,具有良好泛化能力的模型会更脆弱,而end-to-end中良好的泛化能力可以帮助模型正确地分类目标。故针对最后一层网络的攻击有较差的可移植性,导致几乎没有攻击攻击。于是对这些模型在多层网络中进行攻击,得到了很好的攻击效果(GoogLeNet中的成功率低是因为该模型结构与替代模型有很大的不同)。

posted @ 2020-11-08 14:50  阿洛萌萌哒  阅读(1071)  评论(0编辑  收藏  举报