负采样纠偏

背景

在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布。但是在广告ctr、cvr模型中,由于需要计费,所以要求ctr、cvr的预估是无偏的,因此需要进行纠偏

 

纠偏方法

使用sigmmoid作为分类函数时,进入sigmoid函数前的输入其实就是对数几率:

可以得出:

 其中假设了采样不改变特征分布,且采样率远小于1:

 

参考资料

《Simple and scalable response prediction for display advertising》

posted @ 2023-05-07 16:39  xd_xumaomao  阅读(271)  评论(0编辑  收藏  举报