差分隐私学习一

差分隐私(differential privacy)主要目的是最大化utility的查询结果同时保证个人隐私的泄露不超过 ϵ

差分隐私主要包括:

  • 中心化差分隐私( ϵ -DP )
  • 本地化差分隐私( ϵ -LDP)

两者区别在于:

  • 中心化差分隐私的随机函数运行于服务器上,而本地化差分隐私的运行于本地。
  • 服务器上数据有全局敏感性,而本地查询中任意用户之间并不知晓其它人的数据记录
  • 因此中心化差分隐私一般采用拉普拉斯、指数噪声机制等方法,而本地化差分隐私主要采用随机响应技术保护隐私。

加噪方法主要分为以下两类:

  • 扰动(perturbation)
    • 对输入数据扰动:随机响应
    • 对输出数据扰动:拉普拉斯算法
    • 中间数据:随机响应或拉普拉斯算法
  • 采样
    • 将数据集分为 k 份,对每份数据应用拉普拉斯或随机响应算法
    • 好处:对小数据将进行处理从而提高运行效率,类似于随机梯度下降计算每个Batch的梯度

差分隐私核心思想:

  • 对于差别只有一条记录的两个相邻数据集,查询他们获得相同值的概率非常接近
  • 对于两个只相差一个记录的相邻数据集D和数据集D′,查询算法M的输出结果S的概率应该非常接近。对于任意参数ϵ>0,函数M满足ϵ − differentialprivacy ϵ 接近于0,两个概率接近相等,保密程度高,噪声越大 ϵ 越大,数据越准确,保密程度低,噪声越小。
posted @ 2021-01-28 11:38  KbMan  阅读(620)  评论(0编辑  收藏  举报