ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD

Alexey Kurakin, Ian J. Goodfellow, Samy Bengio, ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD

概

有很多种方法能够生成对抗样本(adversarial samples), 但是真实世界中是否存在这样的对抗样本呢?

假设\(X\)为图像(各元素取值为\([0,255]\)), \(y_{true}\)为其标签, \(f(X)\)为一模型, 其输出是一个概率向量, 定义

\[y_{LL}:=\arg \min_i \{f(X)_i\}, \]

故本文的生成adversarial samples的方法是最小化

\[J(X,y_{LL}):=-\log f(X)_{y_{LL}}, \]

则

\[X_0^{adv}=X,\quad X_{N+1}^{adv}=Clip_{X,\epsilon} \{X_N^{adv} - \alpha \mathrm{sign}(X_N^{adv},y_{LL})\}， \]

其中

\[Clip_{X,\epsilon}(X'):=\min \{ 255,X+\epsilon, \max\{0,X-\epsilon, X'\} \}, \]

即使得\(X'\)落入\([0,255]\)内且, \(\|X-X'\|_{\infty} \le \epsilon\).

对l.l.c. adv. 和 fgsm, ifgsm进行了比较
在这里插入图片描述

为了探究真实世界是否也存在这样的对抗样本, 作者将图片进行如下操作:

在这里插入图片描述

可以把这种操作看成一个变换\(T:X \rightarrow T(X)\), 如果真实世界中也存在对抗样本, 那么原本的adversarial samples 在经过这个变换之后很有可能也具有对抗的性质, 事实上, 实验显示的确, 虽然其对抗的程度有些许下降.

作者构建了一个指标(重构率)来衡量:
在这里插入图片描述
其中

\(\overline{C(X,y)}=1-C(X,y)\).

\(d\)表示经过变换\(T\)后, adversarial samples 变成普通样本(即不被误判)的比例, 实验显示, 在实验一中表现出色的l.l.c. adv., \(d\)反而比较高, 作者猜测这是因为这个方法产生的扰动比较精细, 经过\(T\)变换后, 这部分扰动就容易被抵消.

posted @ 2020-05-05 20:31 馒头and花卷阅读(1099) 评论(4) 编辑收藏举报

刷新页面返回顶部