【三期胡宇】CCF-A(KDD'20)TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations
深度学习的成功部分得益于各种大规模数据集, 这些数据集通常是从个人用户众包出来的,其中包含性别、年龄等隐私信息。不幸的是,数据众包过程可能会面临严重的隐私风险,数据可能会被数据收集者滥用或被对手获取。现有的一种解决方案是在用户端对原始数据进行预处理以提取特征,然后只将提取的特征发送给相应的服务提供商。然而,攻击者可以利用提取的特征来推断隐私属性。还有一类方法是对提取出来的特征进行维度减少以及添加噪声,然后再把这些经过处理后的特征上传到服务提供商。然而,这种方法会导致数据可用性的损失。这些解决方案是针对已知的主要学习任务而设计的,所提取的特征对于未知的学习任务效果不佳。为了解决学习任务未知或变化的情况,本文提出了TIPRDC,一个具有匿名中间表示的任务独立隐私保护众包框架。该框架的目标是学习一个特征提取器,可以隐藏隐私信息的中间表示;同时最大限度地保留原始信息,以便数据收集器完成未知的学习任务。本文设计了一种学习匿名中间表示的混合训练方法。作者对TIPRDC进行了广泛的评估,并将其与现有的使用两个图像数据集和一个文本数据集的方法进行了比较。实验表明,TIPRDC大大优于其他现有的方法。Ang Li , Yixiao Duan , Huanrui Yang , Yiran Chen , Jianlei Yang, “TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations”,in KDD '20
本文优点:
(1)本文提出的TIPRDC是第一个尊重隐私的深度学习数据众包框架,不需要了解任何具体的主要学习任务。
(2)本文提出了一种隐私对抗训练算法,使特征提取器能够对特征隐藏隐私信息。
(3)本文较好地实现了保护数据隐私与保持数据可用性的权衡。
2020年11月7日