Papernot N., Abadi M., Erlingsson U., Goodfellow I. and Talwar K. Semi-supervised knowledge transfer for deep learning from private training data. In International Conference on Learning Representations (ICLR), 2017.
概
本文 Private Aggregation of Teacher Ensembles (PATE) 介绍了一种防止私有数据泄露的方法.
流程

- 将敏感的私有数据 (X,Y) 分割成 disjoint sets (Xi,Yi),i∈[n]={1,2,…,n};
- 每个子集训练一个教师网络 fi(x),i∈[n];
- 将这些教师网络综合为 Aggregate Teacher f:X→[m], 对于任意的样本 x, 它按照如下方式进行预测:
- 计算被预测为类别 j 的频次:
nj(x):=|{i:i∈[n],fi(x)=j}|,j∈[m];
- 采用如下方式预测:
f(x)=argmaxj{nj(x)+Lap(1γ)};
其中 γ 是 privacy parameter, 控制隐私保护的效果, 显然越大的 γ 会有越好的隐私保护的效果, 但是伪标签的越不靠谱;
- 有了 f(⋅) 之后, 我们可以在一个公开的数据集上进行训练, 我们首先为公开数据的部分数据通过 f(⋅) 获得伪标签, 然后再通过半监督学习算法进行训练.
理论分析
这部分主要讲一下作者推导的思路.
定义1: 一个随机机制 M:D→R 是 (ϵ,δ)-differential privacy 的, 如果对于任意的 d,d′∈D,ρ(d,d′)≤1 以及输出子集 S⊂R 有下列不等式成立:
Pr[M(d)∈S]≤eϵPr[M(d′)∈S]+δ.
定义2: 令 aux 表示任意输入, 对于输出 o∈R, privacy loss 定义为:
c(o;M,aux,d,d′):=logPr(M(aux,d)=o)Pr[M(aux,d′)=o].
并定义 privacy loss random variable 为
C(M,aux,d,d′)=c(M(d);M,aux,d,d′).
定义3: moments accountant 定义为:
αM(λ):=maxaux,d,d′αM(λ;aux,d,d′),
其中
αM(λ;aux,d,d′):=logE[exp(λC(M,aux,d,d′))].
有了上面的定义, 还有下列的一些结果:

我们可以得到上述算法的一个的隐私保护的 bound.
-
这里作者说每一步是一个 (2γ,0)-DP, 经过 T steps 就是
(4Tγ2+2γ√2Tlog1δ,δ)-DP,
说实话, 我没怎么理解 每一步 的概念, 此外 differ by at most 1 in each corrdinate 这个条件我也不是很明了. 这里就大概讲一下上面的是怎么来的.
-
首先根据定理 2 得到
α(λ;axu,d,d′)≤2γ2λ(λ+1);
-
然后根据定理 1 的 [Composability] 得到
αM(λ;d,d′)=2γ2Tλ(λ+1);
-
接着
λ∗=argminλ(αM(λ)−λϵ)=ϵ−2γ2T4γ2T;
-
给定 δ, 理想的 ϵ 需要满足:
δ=exp(αM(λ∗)−λ∗ϵ),
解得
ϵ=2Tγ2+2γ√2Tlog1δ,
注意这里算出来的系数不一样, 不晓得是我哪里搞错了, 还是作者的笔误, 但是无伤大雅.
注: 3.3 中作者推了一个更 tight 的一个 bound, 这里不多赘述了.
代码
[official]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2020-10-05 Feature Distillation With Guided Adversarial Contrastive Learning