负采样纠偏

背景

在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布。但是在广告ctr、cvr模型中,由于需要计费,所以要求ctr、cvr的预估是无偏的,因此需要进行纠偏

 

纠偏方法

符合表示

  • p'是已经采样之后的预测概率
  • p表示未采样的预测概率
  • $N_p$ 原始的正样本数量
  • $N_n$ 为采样后的负样本的数量
  • r表示负样本的采样比例

1. 可以得到: \[ \frac{p'}{1 - p'} = \frac{N_p}{N_n} \quad (1) \] \[ \frac{p}{1 - p} = \frac{N_p}{\frac{N_n}{r}} \quad (2) \] \[ p' = \frac{1}{1 + e^{-wx}} \quad (3) \]

2. 根据 (1) 和 (2) 得到: \[ \frac{p}{1 - p} = \frac{N_p}{\frac{N_n}{r}} = \frac{p'}{1 - p'} * r \quad (4) \]

3. 已知 (3) 可得: \[ \ln\frac{p'}{1 - p'} = wx \quad (5) \]

4. 已知 (4) 和 (5) 可得: \[ \ln\frac{p}{1 - p} = \ln\frac{p'}{1 - p'} + \ln(r) = wx + \ln(r) \quad (6) \]

5. 最终得到的预测概率为: \[ p = \frac{1}{1 + e^{-(wx + \ln(r))}} \quad (7) \]

 

参考资料

《Simple and scalable response prediction for display advertising》

CTR负采样矫正原理

posted @ 2023-05-07 16:39  AI_Engineer  阅读(544)  评论(0)    收藏  举报