Addressing Unmeasured Confounder for Recommendation with Sensitivity Analysis

Ding S., Wu P., Feng F., Wang Y., He X., Liao Y. and Zhang Y. Addressing unmeasured confounder for recommendation with sensitivity analysis. In ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), 2022

以往的鲁棒的 estimator 在存在 unmeasured confounder 的时候会导致 counfounding bias, 本文通过给定 bound 下的对抗训练来解决这一问题.

符号说明

  • \(\mathcal{U}\), users;
  • \(\mathcal{I}\), items;
  • \(\mathcal{D} = \mathcal{U} \times \mathcal{I}\), user-item pairs;
  • \(x_{u,i}\), user-item feature;
  • \(o_{u,i} \in \{0, 1\}\), 1 表示 \(i\) 曝光给 \(u\);
  • \(r_{u, i}\), rating;
  • \(\mathcal{O} = \{(u, i)| (u, i) \in \mathcal{D}, o_{u, i} = 1\}\);

问题

  • 假设 \(o, x, y, h\) 满足上面的因果图, 其中 \(h\) 是一些无法观测的变量;

  • 设想, 我们希望通过一个模型 \(f_{\phi}(\cdot)\) 来估计 \(r\). 我们模拟的是这样的一个流程:

    1. 将 item \(i\) 曝光给 user \(u\), 即 \(do(o_{u,i} = 1)\);
    2. 获得一个指标 \(r_{u,i}(1) := r_{u,i}| do(o_{u,i} = 1\);
  • 那么自然地, 我们希望 \(\hat{r}_{u,i}(1) = f_{\phi}(x_{u,i})\) 能够逼近真实地 \(r_{u,i}(1)\):

    \[\min_{\phi} \quad \mathcal{L}_{ideal}(\phi) = \frac{1}{|\mathcal{D}|} \sum_{(u, i) \in \mathcal{D}} e_{u, i}, \]

    其中

    \[e_{u, i} := (\hat{r}_{u, i}(1) - r_{u, i}(1))^2; \]

  • 但是, 由于只有部分 \(\mathcal{O}\) 曝光, 故实际上我们只能优化:

    \[\mathcal{L}_{real}(\phi) = \frac{1}{|\mathcal{O}|} \sum_{(u, i) \in \mathcal{O}} e_{u, i}; \]

  • 倘若, 我们能够知道确切的 propensity score:

    \[\tilde{p}_{u, i} = \mathbb{P}(o_{u,i} = 1| x_{u, i}, h_{u,i}), \]

    则可以通过

    \[\mathcal{L}_{IPS}(\phi) = \frac{1}{|\mathcal{D}|} \sum_{(u, i) \in \mathcal{D}} \frac{o_{u,i} e_{u,i}}{\tilde{p}_{u,i}} \]

    来优化, 注意到该式关于 \(o\) 的期望:

    \[\begin{array}{ll} \mathbb{E}[\mathcal{L}_{IPS}] &=\mathbb{E}_{x, h} \frac{\mathbb{E}_{o, r(1)} [o_{u,i} e_{u,i}] }{\tilde{p}_{u,i}} \\ &=\mathbb{E}_{x, h} \frac{\mathbb{E}_{o} [o_{u,i}] \mathbb{E}_{r(1)}[e_{u,i}] }{\tilde{p}_{u,i}} \leftarrow r(1) \perp \!\!\! \perp o | x, h \\ &=\mathbb{E}_{x, h} \frac{\tilde{p}_{u,i} \mathbb{E}_{r(1)}[e_{u,i}] }{\tilde{p}_{u,i}} \\ &=\mathbb{E}_{x, h, r(1)} [e_{u,i}] = \mathbb{E}[\mathcal{L}_{ideal}]. \end{array} \]

    故这说明该估计量是无偏的.

  • 但是由于 \(h\) 是不可观测的, 故 \(\tilde{p}_{u, i}\) 也是难以估计的; 而之前的方法, 多半假设因果图中不存在无法观测的变量, 并用

    \[\hat{p}_{u, i} = \mathbb{P}(o_{u,i} = 1| x_{u, i}), \]

    来替代 \(\tilde{p}_{u, i}\). 虽然颇有成效, 但在理论上, 该估计量是有偏的, 因为

    \[r(1) \not \! \perp \!\!\! \perp o | x, \]

    故之前的推导就失效了.

本文方法

  1. 假设我们用逻辑斯蒂回归去拟合 \(\hat{p}\), 即

    \[\hat{p}_{u, i} = \mathbb{P}(o_{u, i} = 1| x_{u, i}) = \frac{\exp(m(x_{u,i}))}{1 + \exp(m(x_{u,i}))}, \]

    其中 \(m(\cdot)\) 是任意的函数;

  2. 类似地, 用加性模型

    \[\tilde{p}_{u, i} = \mathbb{P}(o_{u, i} = 1| x_{u, i}, h_{u,i}) = \frac{\exp(m(x_{u,i}) + \varphi(h_{u, i}))}{1 + \exp(m(x_{u,i}) + \varphi(h_{u,i}))}, \]

    拟合真实的 propensity score;

  3. \(|m(x) + \varphi(h)|\) 的大小和能量有关, 作者假设没观测到 confounders 的能量是有限的, 被控制在 \(|\varphi (h)| \le \log \Gamma, \Gamma \ge 1\), 若 \(\Gamma = 1\), 这意味着不辞你在 confounders;

  4. 此时

    \[\frac{1}{\Gamma} \le \frac{(1 - \hat{p})\tilde{p}}{\hat{p} (1 - \tilde{p})} = \exp(\varphi(h)) \le \Gamma, \]

    于是

    \[a_{u,i} \le \tilde{w}_{u,i} := \frac{1}{\tilde{p}_{u, i}} \le b_{u,i}, \\ a_{u, i} = 1 + (1 / \hat{p}_{u,i} - 1) / \Gamma, b_{u,i} = 1 + (1 / \hat{p}_{u,i} - 1) \Gamma \]

  5. 到此, 我们知道到了 \(\tilde{w}_{u, i}\) 的和 \(\tilde{p}_{u, i}\) 无关的一个上下界, 我们可以从上下界范围内采样合适的点来帮助训练, 作者采取的是对抗训练的思路, 每次采样最恶劣的点:

    \[\tag{12} \min_{\phi} \: \mathcal{L}_{RD-IPS}(\phi) = \max_{W \in \mathcal{W}} \frac{1}{|\mathcal{D}|} \sum_{(u, i) \in \mathcal{D}} o_{u, i} e_{u, i} w_{u, i}, \]

    其中

    \[\mathcal{W} := \{W \in \mathbb{R}_+^{|\mathcal{D}|}: a_{u, i} \le w_{u,i} \le b_{u, i} \} \\ \]

    \(w_{u,i}\)\(W\) 的元素;

  6. 可以期待, 这种方式使得训练更加鲁棒.

Q: 似乎 (12) 中仅仅取到了上界 ?

注: 作者还提出了一个 BRD (Benchmarked RD Framework) 的版本:

\[\mathcal{L}_{BRDIPS} (\phi)=\max_{W \in \mathcal{W}} \frac{1}{|\mathcal{D}|}\sum_{u, i} o_{u, i} (e_{u, i}(\phi) - e_{u, i}(\hat{\phi}^{(0)})) w_{u,i}, \]

其中 \(e_{u, i}(\hat{\phi}^{(0)})\) 是已有的一个方法的估计结果. 其实细想, 注意到

\[e_{u,i}(\phi) > e_{u,i}(\hat{\phi}) \]

的时候, \(w_{u, i}\)\(b_{u,i}\), 即因为这部分和 baseline 的结果差的还比较远, 所以加强了权重, 而当

\[e_{u,i}(\phi) < e_{u,i}(\hat{\phi}) \]

之后, \(w_{u, i}\) 取了 \(a_{u,i}\), 即因为在 \(u, i\) pair 上的表现已经比 baseline 更好了, 所以继续好下去可能反而容易造成过拟合之类的, 所以就加了一个小的权重. 话说这个技术应该有别的论文给出吧.

注: 与其它方法的结合这里就不提了.

代码

[official]

posted @ 2022-08-19 21:24  馒头and花卷  阅读(105)  评论(0编辑  收藏  举报