负采样纠偏
背景
在推荐、广告中可能存在正负比例过于悬殊的情况,为了提高模型效果以及提升模型训练速度,往往会对样本进行采样,用采样后的数据流训练的模型学习的是一个有偏的分布。但是在广告ctr、cvr模型中,由于需要计费,所以要求ctr、cvr的预估是无偏的,因此需要进行纠偏
纠偏方法
使用sigmmoid作为分类函数时,进入sigmoid函数前的输入其实就是对数几率:
可以得出:
其中假设了采样不改变特征分布,且采样率远小于1:
参考资料
《Simple and scalable response prediction for display advertising》