差分隐私学习一
差分隐私(differential privacy)主要目的是最大化utility的查询结果同时保证个人隐私的泄露不超过 ϵ
差分隐私主要包括:
- 中心化差分隐私( ϵ -DP )
- 本地化差分隐私( ϵ -LDP)
两者区别在于:
- 中心化差分隐私的随机函数运行于服务器上,而本地化差分隐私的运行于本地。
- 服务器上数据有全局敏感性,而本地查询中任意用户之间并不知晓其它人的数据记录
- 因此中心化差分隐私一般采用拉普拉斯、指数噪声机制等方法,而本地化差分隐私主要采用随机响应技术保护隐私。
加噪方法主要分为以下两类:
- 扰动(perturbation)
- 对输入数据扰动:随机响应
- 对输出数据扰动:拉普拉斯算法
- 中间数据:随机响应或拉普拉斯算法
- 采样
- 将数据集分为 k 份,对每份数据应用拉普拉斯或随机响应算法
- 好处:对小数据将进行处理从而提高运行效率,类似于随机梯度下降计算每个Batch的梯度
差分隐私核心思想:
- 对于差别只有一条记录的两个相邻数据集,查询他们获得相同值的概率非常接近
- 对于两个只相差一个记录的相邻数据集D和数据集D′,查询算法M的输出结果S的概率应该非常接近。对于任意参数ϵ>0,函数M满足ϵ − differentialprivacy ϵ 接近于0,两个概率接近相等,保密程度高,噪声越大 ϵ 越大,数据越准确,保密程度低,噪声越小。