CTR预估(2)--逻辑回归
1、前面的知识基础
关于ctr预测:
常用的模型就是逻辑回归,线性预测可以直观的反应出各个变量在预测中的权重比较有利于运营部门,大约70%的模型都是采用逻辑回归模型。
首先就是从用户信息广告信息以及上下文信息中提取出特征来然后进行训练。
2、数学基础
局部最优解如何成为全局最优解?对于凸函数来说以上问题成立:
什么是凸函数?如何判断某个函数是不是凸函数?
1、从定义上判断,只适用于简单的函数
2、从函数的二阶导数判断,(二阶导数大于0)
3、组合函数的判断
当函数是多维函数时:需要判断其海森矩阵:
PSD 半正定矩阵;
最大似然函数
3、逻辑回归模型
线性回归模型通过sigmoid函数后得出的结果;
关于sigmoid函数:
似然函数:
最后得到逻辑回归的似然函数:
得到似然函数后需要对齐进行最小化。
最常用的就是梯度下降法;基本上所有的模型都可以使用梯度下降法;
4、特征提取
使用文件IO进行读取文件构成特征向量,多文件的向量提取:
首先构成主特征向量,然后根据主特征向量中的不同字段进行扩充,比如上面手写中的用户信息中的性别信息可以使用用户ID号去寻找用户信息中的其他的特征,找到后加入到主特征向量中,完成特征向量的扩充。