负采样纠偏
背景
在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布。但是在广告ctr、cvr模型中,由于需要计费,所以要求ctr、cvr的预估是无偏的,因此需要进行纠偏
纠偏方法
符合表示
- p'是已经采样之后的预测概率
- p表示未采样的预测概率
- $N_p$ 原始的正样本数量
- $N_n$ 为采样后的负样本的数量
- r表示负样本的采样比例
1. 可以得到: \[ \frac{p'}{1 - p'} = \frac{N_p}{N_n} \quad (1) \] \[ \frac{p}{1 - p} = \frac{N_p}{\frac{N_n}{r}} \quad (2) \] \[ p' = \frac{1}{1 + e^{-wx}} \quad (3) \]
2. 根据 (1) 和 (2) 得到: \[ \frac{p}{1 - p} = \frac{N_p}{\frac{N_n}{r}} = \frac{p'}{1 - p'} * r \quad (4) \]
3. 已知 (3) 可得: \[ \ln\frac{p'}{1 - p'} = wx \quad (5) \]
4. 已知 (4) 和 (5) 可得: \[ \ln\frac{p}{1 - p} = \ln\frac{p'}{1 - p'} + \ln(r) = wx + \ln(r) \quad (6) \]
5. 最终得到的预测概率为: \[ p = \frac{1}{1 + e^{-(wx + \ln(r))}} \quad (7) \]
参考资料
《Simple and scalable response prediction for display advertising》