论文导读:Universal Adversarial Training

在这篇论文中,作者提出了一种优化的方法来找到给定模型的通用对抗样本(首先在 Moosavi-Desfooli 等人 [1] 中引入)。作者还提出了一种低成本算法来增强模型对此类扰动的鲁棒性。

Universal Adversarial Perturbations (UAP) 很“便宜” - 单个噪声可用于导致模型错误标记大量图像。(与基于每个图像生成扰动的通常攻击不同。但这些更有效)。论文还发现 UAP 可以跨不同模型,因此它们也可以用于黑盒攻击设置,因此研究它们很重要。

UAP vs Adversarial Perturbation:为了攻击给定的模型,在一个常见的对抗性攻击案例中,为每个图像找到一个唯一的增量,以便模型对其进行错误分类。在 UAP 案例中,目标是可以找到一个增量并将其用于所有图像。

[1] 中的 UAP 计算:UAP 在 [1] 中首次引入。这是一种简单的技术,但是没有收敛保证。作者通过遍历图像并不断更新 delta,直到 ξ% 的图像被错误分类。并且每次迭代中的更新都是使用 DeepFool [2] 计算的。攻击公式和算法如下所示。

对抗性训练:为了使模型对对抗性攻击具有鲁棒性,Madry 等人提出了对抗性训练,训练过程涉及每次迭代,生成对抗性示例,然后计算它们的损失,更新该损失的权重。公式如下。(Z是扰动图像)

下面总结以下这篇论文的贡献。

1、改进 UAP 计算:在论文中作者简化了找到使损失最大化的增量的公式。这样就可以使用优化器更新 δ。 由于上面的损失是无限的,作者提出了这种损失的剪辑版本。这个公式目标是寻找一种通用扰动,使训练损失最大化,从而迫使图像进入错误的类别。

完整文章:

https://www.overfit.cn/post/7b83e0319aef413cbe4c46fa5151896a

posted @ 2022-03-13 11:33  deephub  阅读(68)  评论(0编辑  收藏  举报