【五期邹昱夫】USENIX Security(USENIX Security'21)Systematic Evaluation of Privacy Risks of Machine Learning Models

The 30th USENIX Security Symposium.

  本文贡献主要有两部分,一是提出一种基于修改预测熵的新成员推理攻击方法。二是定义了一个称为隐私风险分数的指标,用来估计每个样本成为训练集中成员的可能性,提供更加细粒度的隐私风险分析。
  首先是基于预测熵的成员推理攻击,模型的整个训练过程是最小化训练数据的预测损失,所以训练样本的预测输出向量应该接近一个one-hot向量(有且只有一个元素为1,其余元素都为0的向量),预测熵应接近0。测试样本的预测向量不会像数据集里的训练样本一样像一个one-hot向量,会有相对较大的预测熵,由此可以发起成员推理攻击。但是基于预测熵的方法存在一个十分严重的缺陷,就是预测熵并不包含有关真实标签的任何信息,也就是说虽然当分类结果正确时,熵值为0,但当分类结果非常错误时,完全被分为另一类时,预测熵值也会为0。为了解决这个问题,本文对原有的预测熵进行了改进:首先新的预测熵需要保证能够随着正确标签f(x)y的预测概率单调递减;另外也应该随着任何其他错误标签F(x)i的预测概率单调递增。这两点要求对于区分训练数据和测试数据的作用是显而易见的。当正确分类的概率为1时,修正熵为0,而当错误分类的概率为1时,修正熵为无穷大。对预测熵进行合理的修正后,可采用与之前的度量的类似的方式。为不同的类别设置不同的阈值。当需要判定的修正预测熵小于预设阈值,认为是成员,否则为非成员。
  还提出了两种方法来评估当前存在的防御模型。早停法和自适应攻击法。早停法的提出是由于模型训练的越多,其误差就会越小,但由于过拟合或对训练数据的记忆的影响,训练集数据和非训练集数据差别也会越大,目标模型变得容易受到成员推理攻击。早停法就是提前暂停训练迭代,可以使用更短的时间和迭代次数来达到与防御措施相似的模型预测性能。如果与防御措施具有相近的对成员推理攻击的抵抗能力,那么就可以认为防御措施是无效的,反而会耗费时间和资源。另一种评估方法是自适应攻击法,本文认为过去的防御方法,往往都没有考虑自适应攻击的存在。就是说对手了解防御机制,并能够对防御模型实行自适应攻击,在这种情况下,才能认为防御模型是真正有效的。
  本文的优点在于发现了以前的成员推理攻击防御相关研究的问题,都是在特定情况下或者在没有考虑某种特殊情况下的研究成果。然后能够根据这个问题,对前面问题的做出改进;最后的细粒度分析是在之前工作中没有被考虑过的。这种区别于整体思考,反而深入针对单个样本的区分的思维方式,值得学习。

2022年12月3日


posted @ 2022-12-03 21:46  方班隐私保护小组  阅读(86)  评论(0编辑  收藏  举报