Eureka!

Keep thinking.

导航

数据发布时的隐私保护

Posted on 2008-12-04 23:01  Kid.Loki  阅读(828)  评论(3编辑  收藏  举报

最近关注一类隐私保护问题,挺有意思的。作为介绍性的例子(来自文献[1]),考虑一个信用卡消费记录数据库(假设称为D):

ID                 记录
t1             a1→b1→a2
t2          a1→b1→a2→b3
t3             a1→b2→a2
t4             a1→a2→b2
t5             a1→a3→b1
t6                a3→b1
t7                a3→b2
t8             a3→b2→b3

记录中的ai、bi可以看作超市A和超市B的不同分店。一条记录t1:a1→b1→a2就是顾客t1的消费轨迹。这个数据库可能为某个信用卡公司所拥有。

另一方面,当顾客在超市A刷卡时,超市A也会有它自己的记录,并且能过通过某种方式(例如会员制),将记录对应到具体的顾客:

ID                   记录
u1              a1→a2
u2              a1→a2
u3              a1→a2
u4              a1→a2
u5              a1→a3
u6                a3
u7                a3
u8                a3

超市A的这个数据库(假设称为DA)实际上是上述数据库D的一部分。

现在的问题是:假如信用卡公司需要发布数据库D,那么即使它隐藏D中的ID部分,超市A也还是可以利用数据库DA获得一些不该由它知道的信息。例如,超市A会发现,轨迹a1→a3在D中只出现了一次,从而可以断定顾客u5去超市B的b1分店进行了消费。

我们需要防止这样的隐私泄漏。为此,必须首先对D施以某种变形(称为anonymization),再发布变形后的结果D',使得像超市A这样的“攻击者(attacker)”难以获取隐私信息。简单易用的变形方法包括删除某些记录的某些项、抽象化某些记录的某些项、更改某些记录的项的顺序、插入虚假记录等等。所有的这些方法都是为了对记录做“平滑”,使之不带有任何异于寻常的特征。另一方面,所有的这些方法也都会对D造成信息破坏。寻找一个信息破坏最小又足够防止隐私泄露的变形可能是一个NP-hard问题[2]。

那么,变形到什么程度才叫“足够防止隐私泄露”?L. Sweeney在2002年提出了一个k-anonymity模型[3],基本的意思是:DA中的任何一条记录都可以在D'中找到至少k-1个另外的匹配记录,这样,攻击者就不能以超过1/k的概率做出准确的推断。2006年,A. Machanavajjhala等人又提出了一个复杂些的l-diversity模型[4],得到了比k-anonymity更好的隐私安全性。

k-anonymity和l-diversity的不足在于它们需要事先知道攻击者的数据库DA,至少要知道例如记录长度、项类型之类的信息,而这种假设往往不太现实。在上述隐私保护问题的最新进展中,M. Terrovitis等人试图减少对先验知识的依赖[1][5],即探讨一种变形方式,使任意的攻击者皆束手无策,他们的主要思路是对k-anonymity模型进行扩充。应该说,这类隐私保护问题还有很多值得研究的方面。

 

参考文献

[1] M. Terrovitis, N. Mamoulis. Privacy preservation in the publication of trajectories. In: Proceedings of 9th International Conference on Mobile Data Management (MDM2008), Beijing, China: IEEE Computer Society, 2008. 65-72.

[2] A. Meyerson, R. Williams. On the complexity of optimal k-anonymity. In: Proceedings of the 23rd ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems (PODS2004), Paris, France: ACM, 2004. 223-228.

[3] L. Sweeney. k-anonymity: a model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(5): 557-570. 2002.

[4] A. Machanavajjhala et al. l-diversity: privacy beyond k-anonymity. In: Proceedings of the 22nd International Conference on Data Engineering (ICDE2006), Atlanta, Georgia, USA: IEEE, 2006. 24.

[5] M. Terrovitis et al. Privacy-preserving anonymization of set-valued data. Proceedings of the Very Large DataBase (VLDB) Endowment, 1(1):115-125. 2008.