在听完第五组的报告之后,浅谈一下对差分隐私的认识,主要针对差分隐私的思想做一个大致的梳理。
- 为什么会产生差分隐私?
由于有些“聪明”的用户为了知道某些信息,可以通过两次查询结果的差异进行对比,从而在两次数据的对比中找到有用的信息。正如在杨顼组的报告中提到的查询二等兵约瑟夫阿伦是否阵亡的信息,可以通过查询D5和D6两次数据结果,将两次数据结果进行对比就可以知道约瑟夫阿伦是否阵亡的消息。
- 差分隐私的主要思想:
差分隐私是基于噪音的安全计算方法,它的思想是:对计算过程用噪音干扰,让原始数据淹没在噪音中,使别有用心者无法从得到的结果反推原始数据。
为了达到保护隐私的目的,就必须使得数据集的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中或不在数据集中,对计算结果的影响微乎其微,攻击者或其他恶意用户无法通过观察结果获取准确的个体信息。
- 那么如何才能做到插分隐私呢?
差分隐私的一般操作是加噪音,也就是在输入或输出上加入随机化的噪音,以期将真实数据掩盖掉,最常用的是拉普拉斯噪音。假设在输出的时候加随机化的噪音,使得对方在窃取到两次输出的结果基本一致,从而达到保护隐私的目的。
总的来说,差分隐私是针对统计数据库的隐私泄露问题提出的一种新的隐私定义。使用差分隐私的条件比较苛刻,从上面的介绍中可以看到在加噪音的时候需要使用与原数据分布比较类似的噪音函数,而这一条件就限制了大多数数据其实不满足插分隐私的使用条件。