负采样纠偏

背景

在推荐、广告中可能存在正负比例过于悬殊的情况，为了提高模型效果以及提升模型训练速度，往往会对样本进行采样，用采样后的数据流训练的模型学习的是一个有偏的分布。但是在广告ctr、cvr模型中，由于需要计费，所以要求ctr、cvr的预估是无偏的，因此需要进行纠偏

纠偏方法

符合表示

p'是已经采样之后的预测概率
p表示未采样的预测概率
$N_p$ 原始的正样本数量
$N_n$ 为采样后的负样本的数量
r表示负样本的采样比例

1. 可以得到： \[ \frac{p'}{1 - p'} = \frac{N_p}{N_n} \quad (1) \] \[ \frac{p}{1 - p} = \frac{N_p}{\frac{N_n}{r}} \quad (2) \] \[ p' = \frac{1}{1 + e^{-wx}} \quad (3) \]

2. 根据 (1) 和 (2) 得到： \[ \frac{p}{1 - p} = \frac{N_p}{\frac{N_n}{r}} = \frac{p'}{1 - p'} * r \quad (4) \]

3. 已知 (3) 可得： \[ \ln\frac{p'}{1 - p'} = wx \quad (5) \]

4. 已知 (4) 和 (5) 可得： \[ \ln\frac{p}{1 - p} = \ln\frac{p'}{1 - p'} + \ln(r) = wx + \ln(r) \quad (6) \]

5. 最终得到的预测概率为： \[ p = \frac{1}{1 + e^{-(wx + \ln(r))}} \quad (7) \]

参考资料

《Simple and scalable response prediction for display advertising》

CTR负采样矫正原理

posted @ 2023-05-07 16:39 AI_Engineer 阅读(544) 评论(0) 收藏举报

刷新页面返回顶部

xd_xumaomao

负采样纠偏

背景

纠偏方法

参考资料

公告