对抗模型 attack and defence

motivation

想在脱离实验室，实际环境中使用
要做到：
强：要对噪音robust
对付来自人类的恶意：要对恶意的骗过机器的数据robust
侦测带有恶意的东西：垃圾邮件，恶意软件检测，网络侵入等

攻击

例子

在图片上加上特制的噪声，网络会得到不同的答案
[外链图片转存失败(img-DSIkPpXH-1568948245655)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p36)]

如何找出特制的噪声

通常训练过程，最小化y‘和y_true间的距离
训练时：x是不变的，获得theta
攻击时，网络是不变的，固定theta，获得x’
没有目标的攻击：加上x‘,希望y’跟y_true越小越好
有目标的攻击：加上x‘,希望y’跟y_true越小越好,同时跟一个错误答案越近越好
额外的限制：x’和x越接近越好，不能被人发现
[外链图片转存失败(img-jDGZoHH7-1568948245656)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p37)]

限制

如何定义distance
图中的例子表示，在使用l-infinity时，值越大，人眼的分辨更明显些
[外链图片转存失败(img-nZijBsDq-1568948245656)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p39)]

how to Attack

想法：像训练神经网络一样，但是不是最小化时的参数theta，而是x’
做法：gradient Descent，但是加上限制
。判断xt是否符合限制，如果不符合，那么要修正xt
修正方法：穷举x0附近的所有xt，用符合限制的xt来取代
[外链图片转存失败(img-YrVMmnJy-1568948245657)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p42)]
修正算法的图形化表示如下图，如果xt跑出圈圈范围外了，就把它抓回来。
[外链图片转存失败(img-T4Jzsx1A-1568948245657)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p43)]

实例

使用一个猫，让它输出海星
[外链图片转存失败(img-P97jVWk6-1568948245658)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p44)]
分析两张图片的不同，很小，要乘以50倍才能看出
[外链图片转存失败(img-vez8UEGo-1568948245658)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p45)]
把猫变成键盘
[外链图片转存失败(img-sbkJ8QEn-1568948245659)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p46)]

是否是因为网络很弱呢？
随机加噪声，但是对结果的影响不大，加的噪声逐渐增大以后会有影响
[外链图片转存失败(img-WRZ2Lh9b-1568948245659)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p47)]

到底是因为什么呢？
x0随机移动，多数时候，在该点附近，网络判断为tiger cat的confidence很高
对于在高维空间中的一个点，有某些神奇的方向会出现这种现象：只要稍微推一点，预测为某个不相干的东西的confidence就会很高。但是整个网络在其他方向上比较长，在某个特定的方向比较窄。
[外链图片转存失败(img-fe7jdjUn-1568948245659)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p48)]

攻击方法

不同方法主要区别在不同的限制和不同的优化方法。
[外链图片转存失败(img-j2haJSWc-1568948245659)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p49)]

FGSM（Fast Gradient Sign Method）

FGSM一种非常简单的方法。只更新一次，一次攻击成功
[外链图片转存失败(img-B5LBntr5-1568948245660)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p50)]
具体的做法是先求gradient，然后更新x0，它并不在意gradient的值，只在乎方向。
[外链图片转存失败(img-JbRz2aRn-1568948245661)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p51)]
它的原理等于给了一个非常大的learning rate，所以一次update就能跑出范围，然后把它拉回对应的角。
[外链图片转存失败(img-fzbdp6QQ-1568948245662)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p52)]
它还有一种进阶的方法，可以多次更新。

白盒和黑盒

在之前的攻击中，我们都知道theta，去寻找最有的x’。
为了攻击，需要知道网络的参数theta，这种就是白盒攻击。
如果我们不知道网络，就安全了吗？
并不是的，因为可以进行黑箱攻击。

黑盒攻击

如果你能够得到目标网络的训练数据
可以训练一个proxy network网络
然后利用proxy network网络得到攻击数据，再来攻击原网络，往往能够成功 [外链图片转存失败(img-rNjqvM8D-1568948245662)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p53)]
所以应该保护好训练资料，但是即便没有训练资料，也有可能进行攻击。
只要丢大量的数据过去，获得输出的结果，也能进行黑箱攻击。
下表中表示黑箱攻击时，系统辨识的正确率。列表示用的proxy，行表示实际用的模型。数据越低，说明攻击效果越好。
[外链图片转存失败(img-ilXP7ZcQ-1568948245662)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p54)]

衍生研究

Universal Adversarial Attack

之前提到的攻击，对于每个图片x，会有不同的噪声x‘进行攻击，有人提出了通用的噪声，可以让所有图片的辨识结果都出错。
这个也可以做黑箱。
[外链图片转存失败(img-9jhSg745-1568948245662)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p55)]

Adversarial Reprogramming

有一个辨识鱼的网络，可以将它改造成数方块的网络，根据方块的不同进行输出。
加一噪声，就能变成别的网络
[外链图片转存失败(img-Gd2cPEaU-1568948245663)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p56)]

真实世界的攻击

有人做实验，把攻击的图像打印出来，然后用图片放在摄像头上进行攻击。证明这种攻击时可以在现实生活中做到的。
可以对人脸识别上进行攻击，把噪声变成眼镜，带着眼镜就可以实现攻击。
[外链图片转存失败(img-UAEyrmwp-1568948245663)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p57)]
结果表示，可以被辨识成其他人。
[外链图片转存失败(img-QrafdO5m-1568948245663)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p58)]
在现实生活中需要做的以下几点。

要保证多角度都是成功的
噪声不要有非常大的变化（比如只有1像素与其他不同），要以色块方式呈现，这样方便摄像头能看清
不要用打印机打不出来的颜色
在交通符号上加噪声。

其他方向的攻击

语音
文字
[外链图片转存失败(img-AVZPj6vi-1568948245664)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p60)]

防御

有人说现在网络之所以会被攻击，是因为overfit，其实不然。通过regularization，dropout或者esemble时不能解决

两种类型

被动防御

不处理网络另外加一个防护罩，可以视为一种特殊的异常检测。
[外链图片转存失败(img-OjsYKURv-1568948245664)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p61)]

主动防御

主动攻击是在训练模型是就加上防御的思想。

被动防御

[外链图片转存失败(img-cNyeaZ0b-1568948245664)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p62)]
filter的一个例子：可以直接对图像进行平滑化。这种方法能够成功的原因，是改变了某个方向上突变的样子，但是不会改变图片的原意。

feature Squeeze

squeezer指的是不同的filter
[外链图片转存失败(img-dLu2Kplz-1568948245665)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p63)]
比较这些输出，如果区别很大就有问题。

Randomization at Inference Phase

稍微做些改变，看输出是否会有变化
[外链图片转存失败(img-A3vv1Hy7-1568948245665)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p64)]
在model前面加盾牌的方法，如果filter被泄漏，仍然可能被攻击

主动防御

精神：训练network时把漏洞找出来，补好
给定训练资料，然后用训练集来训练模型
如何找漏洞呢？
训练T轮，找出每一个输入对应的的attack，然后把可以被attack成功的数据找出来，再把这些数据加上正确的label，当作新的资料，进行训练。
训练T轮是因为训练时参数会变，所以要找出新的漏洞，再补起来

如果你用A方法来找漏洞，但是被B方法攻击，可能仍然防不住
假设你的找漏洞的方法被泄漏出去，别人就可以不用这种方法，换一种方法攻击。
[外链图片转存失败(img-4gm7IEXz-1568948245665)(evernotecid://C7EDAE3B-B0B5-43D7-9120-9EA71A1AFF71/appyinxiangcom/23815745/ENResource/p66)]

posted @ 2020-08-06 18:55 你的雷哥阅读(737) 评论(0) 编辑收藏举报

刷新页面返回顶部

你的雷哥

对抗模型 attack and defence

motivation

攻击

例子

如何找出特制的噪声

限制

how to Attack

实例

攻击方法

FGSM（Fast Gradient Sign Method）

白盒和黑盒

黑盒攻击

衍生研究

Universal Adversarial Attack

Adversarial Reprogramming

真实世界的攻击

其他方向的攻击

防御

两种类型

被动防御

主动防御

被动防御

feature Squeeze

Randomization at Inference Phase

主动防御

公告