广告逻辑回归算法 理解要点

LR -> GD -> SGD -> TG

 

广告点击率预估中广泛使用逻辑回归模型,样本数目和特征(逻辑回归粗暴离散化后)的数目均可以达到上亿纬度,而LR因为其简单和易并行,并且基于复杂的特征工程后也能得到非常好的效果,所以在工业界获得了广泛的应用。其优点是 a简单 b比较容易并行。缺点是特征工程比较复杂,需要注意将特征离散化(甚至可以将ID离散化)

为了训练模型,如果数据集比较小,可以用全局的梯度下降算法。当数据量比较大,尤其是有不断的新数据进来,这个时候,为了可以在线学习,往往不使用全局数据集,而是采取部分训练集作为原训练集的子集,使用这些子集做迭代,并逐步求解W的下降方向,逐步对W进行更新(理论证明未知)。特别的,如果我们每次取原训练样本的一个训练样本,对W的值逐步进行更新,那么我们就得到了SGD算法,也就是随机梯度下降的方法

由于特征数太多(上亿的特征),我们要求算法具有求解稀疏性特征,意思就是解出的权重向量,应该有大量的值为0。为了达到稀疏性目标,我们通常使用正则化,L1具有比较好的稀疏性特点,但缺点是在原点处不可导。而L2训练出的参数则会产出很多值接近于0却不是0. 同时,当使用随机梯度下降方法训练模型的时候,L1由于每次都是使用一份随机数据训练获得权重,获得权重参数W也不具备稀疏性。这个时候,就需要对L1的正则化做些小的改进,以达到稀疏性的目标

方法一:

简单截断. 意思就是说,不停的迭代训练,然后定期(每隔M次迭代后),看看w值的是否小于某个参数,如果小于,则将该w值设为0,然后继续迭代

方法二:

对简单迭代的改进,主要是在w在某个参数范围内,不是简单的用0来取代,而是根据一定的斜率变化来截断,示意图如下:

 

posted on 2017-02-03 14:51  蓝调生活  阅读(765)  评论(0编辑  收藏  举报

导航