最近关注一类隐私保护问题,挺有意思的。作为介绍性的例子(来自文献[1]),考虑一个信用卡消费记录数据库(假设称为D):
t1 a1→b1→a2
t2 a1→b1→a2→b3
t3 a1→b2→a2
t4 a1→a2→b2
t5 a1→a3→b1
t6 a3→b1
t7 a3→b2
t8 a3→b2→b3
记录中的ai、bi可以看作超市A和超市B的不同分店。一条记录t1:a1→b1→a2就是顾客t1的消费轨迹。这个数据库可能为某个信用卡公司所拥有。
另一方面,当顾客在超市A刷卡时,超市A也会有它自己的记录,并且能过通过某种方式(例如会员制),将记录对应到具体的顾客:
u1 a1→a2
u2 a1→a2
u3 a1→a2
u4 a1→a2
u5 a1→a3
u6 a3
u7 a3
u8 a3
超市A的这个数据库(假设称为DA)实际上是上述数据库D的一部分。
现在的问题是:假如信用卡公司需要发布数据库D,那么即使它隐藏D中的ID部分,超市A也还是可以利用数据库DA获得一些不该由它知道的信息。例如,超市A会发现,轨迹a1→a3在D中只出现了一次,从而可以断定顾客u5去超市B的b1分店进行了消费。
我们需要防止这样的隐私泄漏。为此,必须首先对D施以某种变形(称为anonymization),再发布变形后的结果D',使得像超市A这样的“攻击者(attacker)”难以获取隐私信息。简单易用的变形方法包括删除某些记录的某些项、抽象化某些记录的某些项、更改某些记录的项的顺序、插入虚假记录等等。所有的这些方法都是为了对记录做“平滑”,使之不带有任何异于寻常的特征。另一方面,所有的这些方法也都会对D造成信息破坏。寻找一个信息破坏最小又足够防止隐私泄露的变形可能是一个NP-hard问题[2]。
那么,变形到什么程度才叫“足够防止隐私泄露”?L. Sweeney在2002年提出了一个k-anonymity模型[3],基本的意思是:DA中的任何一条记录都可以在D'中找到至少k-1个另外的匹配记录,这样,攻击者就不能以超过1/k的概率做出准确的推断。2006年,A. Machanavajjhala等人又提出了一个复杂些的l-diversity模型[4],得到了比k-anonymity更好的隐私安全性。
k-anonymity和l-diversity的不足在于它们需要事先知道攻击者的数据库DA,至少要知道例如记录长度、项类型之类的信息,而这种假设往往不太现实。在上述隐私保护问题的最新进展中,M. Terrovitis等人试图减少对先验知识的依赖[1][5],即探讨一种变形方式,使任意的攻击者皆束手无策,他们的主要思路是对k-anonymity模型进行扩充。应该说,这类隐私保护问题还有很多值得研究的方面。
参考文献:
[1] M. Terrovitis, N. Mamoulis. Privacy preservation in the publication of trajectories. In: Proceedings of 9th International Conference on Mobile Data Management (MDM2008), Beijing, China: IEEE Computer Society, 2008. 65-72.
[2] A. Meyerson, R. Williams. On the complexity of optimal k-anonymity. In: Proceedings of the 23rd ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems (PODS2004), Paris, France: ACM, 2004. 223-228.
[3] L. Sweeney. k-anonymity: a model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(5): 557-570. 2002.
[4] A. Machanavajjhala et al. l-diversity: privacy beyond k-anonymity. In: Proceedings of the 22nd International Conference on Data Engineering (ICDE2006), Atlanta, Georgia, USA: IEEE, 2006. 24.
[5] M. Terrovitis et al. Privacy-preserving anonymization of set-valued data. Proceedings of the Very Large DataBase (VLDB) Endowment, 1(1):115-125. 2008.