第三课 排序与CTR预估问题
这里主要是在线广告的运用。广告一般采取CPC模式付费,即按照点击率付费,其中点击率
这个是一个二分类问题,即给一个广告的数据,判断其会被点击的概率。经典算法如逻辑斯蒂回归,基于树的一些模型以及DNN等。一般来说数据量都很大,本地跑不动
由于数据量很大,工业界不用pandas
读入数据,这是因为我们读入的数据一般是稀疏矩阵,而pandas
会将LIBSVM
读入,读入的数据只有标签和非零的位置,如下
第一列是标签,剩下列中冒号前面是为止,冒号后面是值
当然还有一种方法是使用下采样。对于广告来说,显然正样例(点击)远远少于负样例(不点击)
在排序问题下面,最常用的评估指标是AUC.当然打比赛的时候还是看比赛的介绍页面
比赛页面
对标签做描述性统计,将这个值作为baseline
可以查看一下特征与标签之间的关系。这样可以找出哪些特征是对标签真正有用的从而保留(比如下面就可以发现设备类型对点击率是有帮助的,因为不同的设备有不同的点击率)。下面只统计了均值,实际上更具体的还要统计方差
可以统计一下分类型特征的频率,如果发现某一个类型出现的次数非常少,我们还要单独做一个独热编码的话,只会增加计算资源的浪费,因为我们肯定不能从这么少的样本中学出这个类型对标签有什么贡献,此时的处理方法有二:可以单独将这些样本抽取出来,看看是否有什么规则可以直接判断,或者将若干个出现次数非常少的类型同时作为一个类型然后给出独热编码
视频2:00:00之后讲FM
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
2024-02-11 杀人游戏
2024-02-11 从u到v还是从v到u?
2024-02-11 嗅探器
2024-02-11 北大ACM队的远足
2024-02-11 学校网络