CTR预估(1)--CTR基础
1、评价指标体系
1)logloss:评价点击率预测的准确性
计算公式:
对于ctr计算来说:
最后化简可以成为:
最后的计算代码:
这样的计算代码中在使用log计算时pctr[i]中的必须判断是否为0,否则出现无穷的情况;
2)AUC指标
使用二分类举例:
首先根据分类结果统计一个混淆矩阵:
举例:
二分类的评价指标:
预测准确率表示:在预测值中为1的预测的准确率
召回率表示:真实值为1的预测正确的比例
正确率:整个预测的正确率1预测1 + 0预测0 /全部;
ROC图:越靠近左上部分的分类效果就越好;以FP Rate为横坐标, TP Rate为纵坐标;
ctr 预估是一个二分类问题,可以根据ctr的预测设置阈值然后统计FP Rate和 TP Rate,然后根据这两个值画出ROC曲线:
为了避免阈值对分类器结果造成影响,引入AUC进行评价;
AUC:area under curve:
线上指标:
对于线上指标,cpm要涨,但是cpc要维持稳定;
上线需要根据具体的要求进行调整,看看是依靠点击率还是依靠点击单价进行;
2、评估系统
广告请求到来后,进行ctr预估系统,系统从广告库中选择广告进行ctr预估,产生点击率预估值;预估的流程:
首先对数据进行预处理,通过对广告设置埋点,一旦广告被点击生成唯一的urlId进入点击日志系统与展示日志进行匹配完成一次点击统计,由于样本库巨大需呀对其进行采样,对于点击率来说大多数的结果都是很小也就是一个负样本,因此需要对其进行负采样,这样做的目的就在于减少训练数据的规模,同时还可以增加正样本的比例,使得AUC还会增加也就是分类器的效果更好。
然后进行特征工程,对特征进行筛选,选择出有用的特征或者对特征进行处理;
3、项目介绍