逻辑回归和搜索广告
1.发展的三个阶段:
a.百度和雅虎的竞价排名:
b.Google根据出价和点击率来决定广告的投放,关键是要预测用户的点击率
c.整体的优化
d.根据历史点击率来预估点击率的不足:
i.新的广告的投放
ii.很多查询对应的广告才2-3此点击,统计的数据严重不足
iii.消除摆放位置的噪声
e.工业界普遍采用的逻辑回归模型
2.逻辑回归模型:
a.定义:
将一个事件出现的概率适应到一条逻辑曲线(其值域在(0,1))上;为一条S型的曲线,其特点是开始变化快,逐渐减慢,最后饱和,比如函数f(z)=e^z/(e^z+1)=1/(e^z+1),其曲线如下:
b.特点:
i.变量的取值从-∞到+∞,可以把各种信号组合起来,
ii.而值域的范围始终未(0,1),不论信号组合成多大的值,最后依然能得到一个概率分布
c.预估点击率问题:
i.有k个影响点击率的变量x1,...,xk,用线性的办法将他们组合起来的z=β0+β1*x1+...+βk*xk,其中βi为自回归参数,标示的是相应参数的重要性,β0为一个特殊的参数,保证在没有任何信息时,有一个稳定的概率分布
iii.难点:
1.选取与广告有关的信息——数据挖掘专家和搜索工程师
2.自回归参数的训练
有着f(z)=e^z/(e^z+1)=1/(e^z+1)形态的逻辑回归函数和最大熵函数,在函数值和形态上有共性,因此可以用GIS和IIS方法直接训练
3.模型总结:
逻辑回归模型是一种将影响概率分布的不同因素结合在一起的指数模型