Physical Adversarial Textures That Fool Visual Object Tracking

Physical Adversarial Textures That Fool Visual Object Tracking

2020-02-24 23:35:19

Paper: ICCV-2019 

Related Works: 

1). SPARK: Spatial-aware Online Incremental Attack Against Visual Tracking [Paper

2). Defense-GAN: Protecting Classifiers against Adversarial Attacks using Generative Models [Paper] [Code

3). STA: Adversarial Attacks on Siamese Trackers [Paper

4). Universal Adversarial Attack on Attention and the Resulting Dataset DAmageNet [Paper

 

1. Background and Motivation

本文是首次将对抗攻击技术用于攻击 visual tracker。本文提出一种对抗纹理(Physical Adversarial Textures (PAT)),并且成功的攻击了基于回归的跟踪器 GOTURN。作者认为攻击一个 tracking 系统相比与 classification 或者 detection models 是更加有挑战的。因为 tracker 会适应物体外观的变换,一个 adversary 必须能够在物体移动和变化后足够 general。此外,像 GOTURN 这种 tracker 仅仅考虑到整帧的一个子区域,所以,only a small part of the PAT may be in view and not obstructed, yet it must still be potent。另外,在任何一帧仅仅让 BBox 稍微的偏差一些,并不能让 tracker 失效。鲁棒的 adversaries 必须能够让跟踪系统无法很好地跟住目标物体。

 

总体来说,本文的贡献可以分为如下几个方面:

1)首次展示了 adversaries 对序列跟踪任务的影响,影响了诸如视频监控,无人机领域,以及自动驾驶;

2)提出了“Guided adversarial losses” 的概念,which strikes a middle-ground between targeted and non-targeted adversarial objectives, 实验证明可以增强收敛性和对抗强度;

3)研究了 Expectation Over Transformation (EOT),

4)用 non-photorealistic simulator and diffuse-only materials 展示了 PATs的 sim-to-real 的迁移能力;

 

 

2. Object Tracking Networks

现阶段,很多基于学习方法的跟踪算法被设计出来,例如 GOTURN。其他的跟踪方法,如基于特征空间交叉滤波的方法,tracking-by-detection 的方法也可以,但是本文聚焦于 GOTURN 模型来验证本文方法的有效性。

如图2 所示,给定一个目标的在 第 $f_{j-1}$ 帧的 BBox 位置,GOTURN 从该帧中抠出模板图像块。在当前帧也会抠出一个搜索区域来进行目标的定位。这两个图像块都会被resize 成 227*227,然后输入到 CNN 中;然后得到的 feature 进行拼接后,输入到 fc 层 得到当前帧预测的目标位置。对于 GOTURN 的具体细节可以参考博文

 

3. Attacking Regression Networks

对于分类任务,一个对抗样本被定义为:a slightly-perturbed version of a source image,并且需要满足两个条件:

adversarial output --- 被攻击的模型将正确的 label 误分类了。

perceptual similarity --- 生成的对抗样本要人眼看起来和 source image 几乎无差别。

当攻击 regression 任务的时候,作者讨论了一些必要的调整。当然前人已经有相关的对抗的算法来攻击 regression task,但是仍然缺乏对抗样本强度和属性的相关分析(原文说的是: there is still a general lack of analysis on the strength and properties of adversaries a function of different attack objectives)。在这个工作中,作者考虑了不同的方法来优化,并且形成了一种新的 guided adversarial losses. 

 

3.1. Adversarial Strength

Typically, a regression output is characterized as adversarial by thresholding a task-specific error metric。该 metric 可能被用于度量对抗强度(adversarial strength)。例如,对于人体姿态估计的对抗可以被量化为:预测的结果和真值之间的误差比例。当愚弄 visual tracker 的时候,最终的目标是随着时间破坏跟踪目标的位置。所以,我们考虑一端视频 F = [f1, f2, ... , fN],其中目标是在包含对抗纹理 X 的视频上进行移动,并且通过量化 tracker prediction 和 GT 之间的重合度来量化对抗强度。在这个文章中,作者将对抗强度定义为:averaging the mean-Intersection-Over-Union-difference metric, $\mu IOU d$:

 

 

3.2. Perceptual Similarity

感知相似性通常用 source image 和 perturbed variant 之间的距离来衡量,即:using Euclidean norm in the RGB colorspace。利用本文的工作,作者想提出一种认知:外观的艺术对于视觉模型来说是有害的(colorful-looking art can be harmful to vision model)。

 

3.3. Optimizing for Adversarial Behaviors

本文利用了多种损失函数来优化对抗样本:

1). the baseline non-targeted loss: maximizes the victim model's training loss, thus causing it to become generally confused; 

2). targeted losses also apply the victim model's training loss, but to minimize the distance to an adversarial target output; 

3). guided losses: middle-grounds between non-targeted loss and targeted losses

4). hybrid losses: use a weighted linear combination of the above losses to gain adversarial strength and speed up the attack. 

 

为了愚弄 object tracker,作者考虑了这些特定的损失:

 

  

其中,Lps 是 Lagrangian-relaxed loss,作者用这个 loss 主要是增强 perceptual similarity。

 

4. Physical Adversarial Textures

在本节,作者主要是讨论了如何利用上述方式的攻击来产生 Physical Adversarial Textures(PAT)。这种 PATs 出现在 digital poster,在跟踪的目标附近被捕获时,会导致受害的模型丢失所跟踪的目标。在这个工作中,作者对 GOTURN 算法进行白盒攻击 white-box attack,即:可以访问到 GOTURN 网络的权重,所以可以进行反传。本文聚焦于跟踪行人和仿真机器人,并且假设 tracker 是在这些特定的类别上进行训练的。

 

作者用 Expectation Over Transformation algorithm(EOT)来解决愚弄时序跟踪模型的几个挑战,which minimizes the expected loss E[L] over a minibatch of B scenes imaged under diverse conditions。

 

4.1. Modeling rendering and lighting 

为了优化对应 physical poster 纹理的损失,作者用 rendering process 来求导。Rendering 可以简单的分为两个步骤:

projecting the texture onto the surface of a physical item and then onto the camera's frame, and 

shading the color of each frame pixel depending on light sources and material types. 

 

4.2. PAT Attack

 

 

 

5. Experiments

 

 

 

 

posted @ 2020-02-24 23:56  AHU-WangXiao  阅读(622)  评论(0编辑  收藏  举报