Learning Models with Uniform Performance via Distributionally Robust Optimization

Duchi J. C. and Namkoong H. Learning models with uniform performance via distributionally robust optimization. The Annals of Statistics, 49(3), 1378-1406, 2021.

大致内容

  • 本文系统介绍了了如何处理 DRO 问题:

    \[\min_{\theta} \Bigg\{ \mathcal{R}_f (\theta; P_0) := \sup_{Q \ll P_0} \{\mathbb{E}_Q[\ell(\theta; X)]: D_f(Q\|P_0) \le \rho\}, \Bigg\} \]

    其中 \(f\) 是一凸函数,

    \[D_f(Q\|P_0) := \int f(\frac{dQ}{d P_0}) dP_0 \]

    \(f\)-divergence, 由此可以定义 uncertainty region:

    \[\{Q: D_f(Q\|P_0 \le \rho\}. \]

  • 让我们用人话说就是, 我们希望得到这样的一个最优的参数 \(\theta^*\), 它不仅使得在当前分布 \(P_0\) 上是优良的, 在与 \(P_0\) 相近 (由 uncertainty region 定义)的其它分布上也是优良的. 这一诉求在实际训练模型的时候是很有用的:

    1. 在实际中我们只有估计 \(\hat{P}_0\);
    2. 训练的数据分布和测试的数据分布往往有偏差, 但是一般来说这两种分布是相近的, 所以如果我们在 \(\hat{P}_0\) 的 uncertainty region 上进行一个整体的优化, 那么就保证更好地一个泛化性.
  • 作者给出, 当我们只考虑 Cressie-Read family 地 f-divergences:

    \[f_k(t) := \frac{t^k - kt + k - 1}{k (k - 1)}, \]

    时有

    \[\mathcal{R}_k(\theta; P) = \inf_{\eta \in \mathbb{R}} \{ c_k(\rho) \mathbb{E}_P [(\ell(\theta; X) - \eta)_+^{k_*}]^{\frac{1}{k_*}} + \eta\}, \]

    其中 \(k_* = k / (k - 1)\), \(c_k(\rho) := (1 + k(k-1)\rho)^{1 / k}\).

  • 可以注意到, 实际上 \(\mathcal{R}_k\) 只统计了那些大于 \(\eta\) 的损失, 这意味着, DRO 实际上是一种更关注'少数'群体 (tail) 的一种优化方案, 所以会有更佳的鲁棒性和公平性.

  • 更多例子请回看原文.

posted @ 2023-02-26 15:10  馒头and花卷  阅读(63)  评论(0编辑  收藏  举报