差分隐私-问题和定义

问题模型及定义#

注意：密码学方法保证的是计算过程的隐私性，差分隐私保证的是计算结果的隐私性。

差分隐私的核心是保护个人数据的隐私，而不是保护群体数据的隐私。

差分隐私问题模型：一个受信任的数据监管方C拥有一组数据 $\chi=\{X_1, X_2,..,X_n\}$ 。该数据监管方的目标是给出一个随机算法 $A(D)， D \subseteq X, A(D)$ 描述数据子集D的某种指定信息，同时 $A(D)$ 保证所有个体 $X \in \chi$ 的隐私。

比如在企业薪资数据库中， $X_i$ 表示员工i的薪资，则A(D)返回一个与员工集合D的平均工资相关的随机变量。

为了保护隐私，企业通常不会允许查询单个的用户信息，而是允许查询一个群体信息。但是，查询群体信息也存在泄漏隐私的风险，下面是严格的差分隐私的定义：

$\varepsilon-$ 差分隐私：令 $A:2^{\chi} \to Y$ 为一个随机算法，其中 $2^{\chi}$ 为 $\chi$ 所有子集构成的集合，Y为A的值域。；令 $D_1, D_2 \subseteq \chi$ 且相差一条数据不同（相邻数据集）。令 $\varepsilon > 0$ 。算法A满足 $\varepsilon-$ 差分隐私，当且仅当 $\forall D_1, D_2 \subseteq \chi$ 为相邻数据集并且所有的 $y \subset Y$ ,以下不等式成立：

\frac{P r [A (D_{1}) \in Y]}{P r [A (D_{2}) \in Y]} \leq e x p (ε)

$\frac{Pr[A(D_1)\in Y]}{Pr[A(D_2) \in Y]} \leq exp(\varepsilon)$

其中 $\varepsilon$ 称为差分隐私算法的隐私预算

当 $\varepsilon$ 很小时，令 $1 + \epsilon \leq \varepsilon$ ,则：

1 - ϵ \leq \frac{P r [A (D_{1}) \in Y]}{P r [A (D_{2}) \in Y]} \leq 1 + ϵ

$1 - \epsilon \leq \frac{Pr[A(D_1)\in Y]}{Pr[A(D_2) \in Y]} \leq 1 + \epsilon$

这表示 $A(D_1), A(D_2)$ 在概率意义上近似相等。

性质：

$\varepsilon$ 越小，则隐私保护性越强
隐私保护和算法性能之间存在取舍；隐私保护性越强，算法的性能越弱。

变形差分隐私#

$(\varepsilon, \delta)-$ 差分隐私：令随机算法A： $2^{\chi} \to Y$ , 令 $\delta, \varepsilon > 0$ ，算法A满足 $(\varepsilon, \delta)-$ 差分隐私，当且仅当 $\forall D_1, D-2 \subseteq \chi$ 为相邻数据集和所有的 $y \in Y$ ，以下等式成立：

P r [A (D_{1}) \in Y] \leq e x p (ε) P r [A (D_{2}) \in Y] + δ

$Pr[A(D_1) \in Y] \leq exp(\varepsilon)Pr[A(D_2) \in Y] + \delta$

可以看出 $(\varepsilon, \delta)-$ 差分隐私是 $\varepsilon-$ 差分隐私变形的来的，其中 $\delta$ 是 $\varepsilon-$ 差分隐私的可能失效的概率。

局部差分隐私#

以上的两种差分隐私都涉及到一个数据管理第三方，但是在实际情况下很难找到这样的第三方。所以局部差分隐私出现了。每条数据作为独立的数据监管方对自己的数据独立地加入噪声以保护其隐私。

$(\varepsilon , \delta)-$ 局部差分隐私：令随机算法A: $2^{\chi} \to Y$ ，令 $\varepsilon , \delta > 0$ ，算法A满足 $(\varepsilon , \delta)-$ 局部差分隐私，当且仅当 $\forall x, x^{'} \in \chi$ 和 $\forall y \subset Y$ , 以下不等式成立：