第三课排序与CTR预估问题

这里主要是在线广告的运用。广告一般采取CPC模式付费，即按照点击率付费，其中点击率 $CTR = \frac{C}{I} \times 100 %$ ， $C$ 是点击次数， $I$ 是曝光次数。注意对于平台来说，不是说点击率越高收入就越高，这个要看商家为广告一次点击付的费用（一般来说，点击率的分母都是固定的，所以我们考察分子，即点击次数就好了）有多少
这个是一个二分类问题，即给一个广告的数据，判断其会被点击的概率。经典算法如逻辑斯蒂回归，基于树的一些模型以及DNN等。一般来说数据量都很大，本地跑不动
由于数据量很大，工业界不用pandas读入数据，这是因为我们读入的数据一般是稀疏矩阵，而pandas会将 $0$ 的位置也存储下来，这样就会耗费内存。实际上我们可以用LIBSVM读入，读入的数据只有标签和非零的位置，如下

第一列是标签，剩下列中冒号前面是为止，冒号后面是值
当然还有一种方法是使用下采样。对于广告来说，显然正样例（点击）远远少于负样例（不点击）
在排序问题下面，最常用的评估指标是AUC.当然打比赛的时候还是看比赛的介绍页面
比赛页面
对标签做描述性统计，将这个值作为baseline

可以查看一下特征与标签之间的关系。这样可以找出哪些特征是对标签真正有用的从而保留（比如下面就可以发现设备类型对点击率是有帮助的，因为不同的设备有不同的点击率）。下面只统计了均值，实际上更具体的还要统计方差

可以统计一下分类型特征的频率，如果发现某一个类型出现的次数非常少，我们还要单独做一个独热编码的话，只会增加计算资源的浪费，因为我们肯定不能从这么少的样本中学出这个类型对标签有什么贡献，此时的处理方法有二：可以单独将这些样本抽取出来，看看是否有什么规则可以直接判断，或者将若干个出现次数非常少的类型同时作为一个类型然后给出独热编码

视频2:00：00之后讲FM