Sparse Adversarial Perturbations for Videos 论文笔记

Sparse Adversarial Perturbations for Videos

2019, Proceedings of the AAAI

背景

对抗样本在深度学习用了很多,但是没探索过视频方面
因为不止要考虑空间,也要考虑时间
另外,不仅要提高不可察觉性,同时要减少计算量,所以扰动应该添加到尽可能少的帧上,也就是说,在时间上是稀疏的
这进一步增加的扰动的传播性,这表示增加在当前帧的扰动可以通过他们在时间上的交互转移到其它帧。所以这些能被转移到的帧就不需要再加扰动

为此,我们提出了一种基于\(l_{2,1}\)的优化算法来计算视频的稀疏对抗性扰动。
我们选择动作识别作为目标任务,并选择具有 CNN+RNN 架构的网络作为威胁模型来验证我们的方法。

UCF101数据集

技术

要探索时间信息temporal information,希望对一个帧的扰动能通过时间交互传播到其它帧

损失函数希望扰动本身尽可能小,模型产生的输出与真实值的差距尽可能大

对于一帧来说:

image-20211222133314828

\(E\)表示扰动向量 \(E=\hat {X} -X\)

\[l$$是交叉熵 $1_y$真实值的one-hot $J_\theta$是在参数$\theta$下的被攻击模型 为了保证稀疏性,加上时间掩码,强制让一些帧没有扰动: ![image-20211222141401738](C:\Users\62641\AppData\Roaming\Typora\typora-user-images\image-20211222141401738.png) M掩码向量(取值为0或1),相当于屏蔽部分扰动,尺寸为$T*W*H*C$,其中$T$维度的三维矩阵全为0或1(整个帧的掩码) (最后选用了$l_{2,1}$范数,每个帧用$l_2$,帧与帧之间用$l_1$) ## 结论 #### 稀疏度和不可察觉性 <img src="C:\Users\62641\AppData\Roaming\Typora\typora-user-images\image-20211222164928194.png" alt="image-20211222164928194" style="zoom:80%;" /> S是sparsity,稀疏度,未修改的帧数比例,实现了稀疏攻击的效果: <img src="C:\Users\62641\AppData\Roaming\Typora\typora-user-images\image-20211222165129665.png" alt="image-20211222165129665" style="zoom:80%;" /> #### $l_{2,1}$比$l_2$好用: ![image-20211222164608048](C:\Users\62641\AppData\Roaming\Typora\typora-user-images\image-20211222164608048.png) #### 针对不同模型的性能 在LSTM和GRU表现的更好: <img src="C:\Users\62641\AppData\Roaming\Typora\typora-user-images\image-20211222165151161.png" alt="image-20211222165151161" style="zoom:80%;" /> 因为LSTM和GRU相对有较长的记忆能力,更有利于扰动的传播,也就更容易被攻击 \]

posted @ 2021-12-22 17:01  摸鱼鱼  阅读(135)  评论(0编辑  收藏  举报