【五期邹昱夫】CCS(CCS'19)Memguard: Defending against black-box membership inference attacks via adversarial examples
本文主要对目标模型查询样本得出的预测向量进行了优化,通过添加噪声使目标模型在不改变查询样本的预测标签的情况下对预测向量进行具有目的性的有限改变,最终使攻击者的成员推理攻击分类器受到误导。ACM SIGSAC conference on computer and communications security.
本文认为差分隐私和规则化目标分类器的训练过程这两种隐私保护措施存在局限性:对模型预测向量造成的损失无法限制;对隐私保护和模型性能之间作出的平衡不是最优解。因此提出了Memguard,第一个具有形式化效用损失保证的黑盒成员推理攻击防御机制。
MemGuard没有篡改目标分类器的训练过程,而是将噪声添加到由目标分类器预测的每个置信度得分矢量中。由于攻击者使用分类器来预测成员或非成员,并且分类器容易受到对抗性示例的攻击。本文提出了一种在置信度向量上添加一个精心制作的噪声向量,使示例属于属于数据集成员(非成员)的概率接近50%,误导攻击者的成员推理分类器。然后在噪声向量上加入了效用损失约束,MemGuard以一定概率将噪声向量添加到置信得分向量,选择该概率以满足置信得分向量上的给定效用损失预算。关键点在两:噪声选择和损失约束。噪声方面,本文选择以攻促防,通过自己训练分类器用于成员推理,并基于其自己的分类器来制作噪声向量。损失约束方面,MemGuard以一定概率将前面发现的噪声向量添加到模型预测向量中。概率从受预算限制的期望置信度中进行选择。
本文的优点在于发现了现有对抗成员推理攻击的隐私保护机制的局限性,并以此提出了针对性的保护措施MemGuard。并通过实验证明,在相同的目标模型预测向量损失下MemGuard的防护效果最好。
本文的缺点在于只关注了和其他隐私保护措施的对比,没有针对成员推理攻击的分类器的泛用性进行实验,存在分析时低估攻击者攻击模型的可能性。
2022年11月25日