Summary:《Adversarial Machine Learning in Image Classification: A Survey Towards the Defender’s Perspective》在前半部分对抗攻击方面的小结

Note

“Taxonomy of Adversarial Images” (Machado 等, 2023, p. 5) (pdf)

  1. 扰动范围(Perturbation Scope):

    • 个体扰动(Individual-scoped perturbations): 为每个输入图像单独生成的扰动。

    • 通用扰动(Universal-scoped perturbations): 独立于任何输入样本生成的扰动,可应用于任何合法图像,导致误分类。

  2. 扰动可见性(Perturbation Visibility):

    • 最优扰动(Optimal perturbations): 对人类视觉不可感知,但能导致深度学习模型误分类。

    • 难以区分的扰动(Indistinguishable perturbations): 同样对人类视觉不可感知,但不足以欺骗深度学习模型。

    • 可见扰动(Visible perturbations): 能被人类容易发现,但也能导致模型误分类。

    • 物理扰动(Physical perturbations): 在现实世界中对物体本身添加的扰动,通常用于目标检测任务。

    • 欺骗图像(Fooling images): 被破坏到人类无法识别,但模型仍然能以高置信度分类的图像。

    • 噪声(Noise): 非恶意或非最优的干扰,可能存在于输入图像中。

  3. 扰动度量(Perturbation Measurement):

    • 使用p-范数(p-norms)来控制图像中插入的扰动的大小和数量,包括L0、L1、L2和L∞范数,分别对应不同的方式来度量扰动。

“Taxonomy of Attacks and Attackers” (Machado 等, 2023, p. 7) (pdf)

  1. 攻击者的影响力(Attacker’s Influence):

    • 因果性攻击(Causative or Poisoning Attacks): 攻击者在模型训练阶段有影响力,通过污染训练数据来影响模型。

    • 规避性攻击(Evasive or Exploratory Attacks): 攻击者在模型推理或测试阶段有影响力,通过生成对抗性样本来误导模型。

  2. 攻击者的知识(Attacker’s Knowledge):

    • 白盒攻击(White-box Attacks): 攻击者完全访问模型参数和架构。

    • 黑盒攻击(Black-box Attacks): 攻击者对模型和防御方法没有任何访问或知识。

    • 灰盒攻击(Grey-box Attacks): 攻击者对模型有访问,但没有防御方法的信息。

  3. 安全违规(Security Violation):

    • 完整性违规(Integrity Violation): 对抗性攻击导致模型误分类,但不损害系统功能。

    • 可用性违规(Availability Violation): 攻击影响系统功能,导致服务拒绝。

    • 隐私违规(Privacy Violation): 攻击者获取模型参数、架构等信息。

  4. 攻击特定性(Attack Specificity):

    • 目标攻击(Targeted Attack): 攻击者生成对抗性图像,使模型将其错误分类为攻击者预先确定的特定类别。

    • 非目标攻击(Untargeted Attack): 攻击者生成对抗性图像,使模型将其错误分类为任何与原始类别不同的类别。

  5. 攻击计算(Attack Computation):

    • 顺序算法(Sequential Algorithms): 仅通过一次迭代计算扰动。

    • 迭代算法(Iterative Algorithms): 使用多次迭代来精心计算扰动。

  6. 攻击方法(Attack Approach):

    • 基于梯度的攻击(Gradient-based Attacks): 使用模型梯度信息来生成扰动。

    • 基于迁移/分数的攻击(Transfer/Score-based Attacks): 依赖于获取数据集或模型预测分数来近似梯度。

    • 基于决策的攻击(Decision-based Attacks): 通过查询模型的softmax层并使用拒绝采样过程迭代计算较小的扰动。

    • 基于近似的攻击(Approximation-based Attacks): 尝试为非可微技术形成的目标模型或防御近似梯度。

“Algorithms for Generating Adversarial Images” (Machado 等, 2023, p. 10) (pdf)

  1. 快速梯度符号方法(Fast Gradient Sign Method, FGSM):

    • FGSM是由Goodfellow等人提出的一种顺序算法,它利用模型梯度信息在单步操作中生成对抗性样本。FGSM通过在合法图像上添加一个小的扰动来最大化模型的错误率,从而生成对抗性图像。
  2. 基本迭代方法(Basic Iterative Method, BIM):

    • BIM是FGSM的迭代版本,它通过多次小步骤逐渐构建对抗性扰动。这种方法允许更精细地控制扰动的大小,以生成更有效的对抗性样本。
  3. DeepFool:

    • DeepFool算法的核心思想是找到给定合法图像的最近决策边界,然后通过微小的扰动使图像越过这个边界,误导分类器。DeepFool通过线性化分类器来近似解决方案,并迭代地更新扰动方向。
  4. Carlini & Wagner Attack (CW Attack):

    • CW攻击是一种先进的对抗性攻击算法,它使用梯度下降来解决一个优化问题,目标是找到一个小的扰动,能够使模型误分类输入图像。CW攻击通过最小化扰动的大小并增加误分类的置信度来生成对抗性样本。
  5. 其他算法:

    • 论文中还提到了其他一些对抗性攻击算法,如JSMA(Jacobian-based Saliency Map Attack)、L-BFGS(Limited-memory Broyden–Fletcher–Goldfarb–Shanno algorithm)、POBA-GA(Perturbation Optimized Black-box Adversarial Attacks via Genetic Algorithm)等,它们根据不同的原则和方法来生成对抗性样本。
posted @ 2024-06-11 20:18  Rosmontis  阅读(13)  评论(0编辑  收藏  举报