Controllable Guarantees for Fair Outcomes via Contrastive Information Estimation

Gupta U., Ferber A. M., Dilkina B. and Steeg G. V. Controllable guarantees for fair outcomes via contrastive information estimation. AAAI, 2021.

本文提出了一种类似 Information Bottleneck 的方式用于保证两个群体的 fairness.

符合说明

  • \(\mathcal{D} = \{x_i, y_i, c_i\}_{i=1}^N\), 其中 \(x, y, c\) 分别为 features, label 和 sensitive attributes.

  • 我们用 \(\mathbf{x}, \mathbf{y}, \mathbf{c}\) 来表示对应的随机变量.

  • \(\mathbf{z}\), 隐变量.

Motivation

  • 假设我们考虑两个 group (\(\mathbf{c}=0, \mathbf{c}=1\)) 间的公平性, 一种常用的指标是:

    \[\Delta_{DP}(\mathcal{A}, \mathbf{c}) = |P(\hat{\mathbf{y}} = 1|\mathbf{c} = 1) - P(\hat{\mathbf{y}} = 1| \mathbf{c} = 0)|. \]

  • 但是上述指标是依赖算法 \(\mathcal{A}\) 的, 我们更希望有一个指标, 优化它能够对所有的算法都是有效的, 作者通过如下的定理给出这样的一个指标.

  • Theorem 2. 对于 \(z, c \sim p(\mathbf{z, c}), z \in \mathbb{R}^d, c \in \{0, 1\}\), 以及任意的算法 \(\mathcal{A}\), 我们有

    \[I(\mathbf{z}; \mathbf{c}) \ge g(\pi, \Delta_{DP}(\mathcal{A}, \mathbf{c})), \]

    其中 \(I(\cdot; \cdot)\) 表示互信息, \(\pi := P(\mathbf{c}=1)\), \(g\) 是一个单调递增的函数.

  • 该定理, 给了一个很好的直觉: 倘若我们能够保证 \(I(\mathbf{z;c})\) 足够小, 那么 \(g(\pi, \Delta_{DP}(\mathcal{A}, \mathbf{c}))\) 也足够小, 由于它是单调递增的, \(\Delta_{DP}(\mathcal{A}, \mathbf{c})\) 也需要足够小.

  • 于是, 一个对所有算法都有效的指标就是保证 \(I(\mathbf{z;c}) \le \delta\).

优化目标

  • 自然, 除了限制之外, 我们还希望 \(\mathbf{z}, \mathbf{y}\) 比较相关以利于后续的预测, 故我们的优化目标可以表述为:

    \[\begin{array}{rl} \max_{q(\mathbf{z|x})} & I(\mathbf{y;z}) \\ \text{s.t.} & I(\mathbf{z;c}) \le \delta. \end{array} \]

    或者采用如下的形式:

    \[\tag{1} \begin{array}{rl} \max_{q(\mathbf{z|x})} & I(\mathbf{y;z}) - \beta I(\mathbf{z;c}). \end{array} \]

  • 这一目标和普通的 information bottleneck 非常像

  • 但是这个损失存在一些问题, 如上图所示 \(I(\mathbf{y;z})\) 表示阴影部分加上黑色斜线的部分, 而 \(I(\mathbf{z;c})\) 表示阴影加上黑点部分, 所以增加 \(I(\mathbf{y;z})\) 极容易同时增加 \(I(\mathbf{z;c})\).

  • 实际上, 我们希望 \(\mathbf{z}\) 称为画红线的区域, 这部分的互信息实际上是:

    \[I(\mathbf{y;z|c}) \le H(\mathbf{y}|\mathbf{c}), \]

    故我们完全可以直接优化:

    \[\tag{2} \begin{array}{rl} \max_{q(\mathbf{z|x})} & I(\mathbf{y;z|c}) - \beta I(\mathbf{z;c}). \end{array} \]

  • 直接估计互信息是复杂的, 所以, 对于这类问题, 我们通常需要估计 \(I(\mathbf{y;z|c})\) 的一个下界, 以及 \(I(\mathbf{z;c})\) 的一个上界.

  • 容易证明:

    \[\tag{3} I(\mathbf{y;z|c}) \ge \underbrace{H(\mathbf{y|c})}_{\text{constant}} + \max_{r} \mathbb{E}_{\mathbf{y,z,c}} \log r(\mathbf{y|z,c}). \]

  • \(I(\mathbf{z;c})\) 的上界首先注意到:

    \[I(\mathbf{z}; \mathbf{x,c}) =I(\mathbf{z}; \mathbf{x}) +I(\mathbf{z}; \mathbf{c}|\mathbf{x}) =I(\mathbf{z}; \mathbf{c}) +I(\mathbf{z}; \mathbf{x}|\mathbf{c}), \]

    \(\mathbf{z}\) 仅与 \(\mathbf{x}\) 有关, 故 \(I(\mathbf{z;c|x})=0\), 故

    \[\tag{4} I(\mathbf{z;c}) = I(\mathbf{z;x}) - I(\mathbf{z;x|c}). \]

    (4) 是很有意思的, 它意味着, 最小化 \(I(\mathbf{z;c})\) 等价于最小化 \(I(\mathbf{z};\mathbf{x})\) (就像一般的 information bottleneck 一样), 同时最大化 \(I(\mathbf{z;x|c})\).

  • 很自然地, 为了推导 (3) 的下界, 我们需要找出 \(I(\mathbf{z;x})\) 的上界和 \(I(\mathbf{z;x|c})\) 的下界.

  • 根据 here 的 upper 可知

    \[\tag{5} I(\mathbf{z};\mathbf{x}) \le \mathbb{E}_{\mathbf{x}}\Bigg\{ \text{KL}(q(\mathbf{z|x;\phi}), p(\mathbf{z})) \Bigg\}. \]

    其中 \(p(\mathbf{z})\) 是先验分布, \(q(\mathbf{z|x;\phi})\) 是用来拟合 \(\mathbf{z}\) 的变分分布.

  • 根据 here 的 Multi-sample unnormalized lower bounds 可知

    \[\tag{6} I(\mathbf{z;x|c}) \ge \mathbb{E}_{\mathbf{z,x,c}} \log \frac{e^{f(z, x, c)}}{\frac{1}{M}\sum_{j=1}^M e^{f(\tilde{z}, x, c)}}, \]

    其中 \(\tilde{z} \sim P(\mathbf{z|c})\), \(f\) 可以是任意的函数.

  • 于是, 我们最终的损失是:

    \[\max_{q} \quad \underbrace{I(\mathbf{y;z|c})}_{(3)} - \beta [\underbrace{I(\mathbf{z;x})}_{(5)} - \lambda \underbrace{\mathbf{I}(\mathbf{z;x|c})}_{(6)}], \]

    这里额外的 \(\lambda\) 用于更好的平衡.

  • 可以发现:

    • (3) 实际上就是一般的交叉熵损失;
    • (5) 如果假设 \(p(\mathbf{z})\)是高斯先验, 可以有显示的表达式;
    • (6) 实际上是一个对比损失.

代码

official

posted @ 2023-05-06 14:36  馒头and花卷  阅读(20)  评论(0编辑  收藏  举报