2017年2月3日

广告逻辑回归算法 理解要点

摘要: LR -> GD -> SGD -> TG 广告点击率预估中广泛使用逻辑回归模型,样本数目和特征(逻辑回归粗暴离散化后)的数目均可以达到上亿纬度,而LR因为其简单和易并行,并且基于复杂的特征工程后也能得到非常好的效果,所以在工业界获得了广泛的应用。其优点是 a简单 b比较容易并行。缺点是特征工程比较 阅读全文

posted @ 2017-02-03 14:51 蓝调生活 阅读(765) 评论(0) 推荐(0) 编辑

决策树 C4.5 理解要点

摘要: 决策树的主要过程首先用根节点代表一个给定的数据集;然后从根节点开始(包括根节点)在每个节点上选择一个属性,使结点数据集划分(一棵树分裂为几棵树)为更小的子集(子树);直到使用某个属性,其子集中所有样本都属于一个类别,才停止分裂。 这里面需要注意的是如何寻找分裂点,C4.5区别于ID3算法之一在于分裂 阅读全文

posted @ 2017-02-03 13:44 蓝调生活 阅读(1278) 评论(0) 推荐(0) 编辑

GBRT 要点理解

摘要: 1. 首先要理解Boost和Gradient Boost。 前者是在算法开始时候,,为每一个样本赋上一个相等的权重值,也就是说,最开始的时候,大家都是一样重要的。在每一次训练中得到的模型,会使得数据点的估计有所差异,所以在每一步结束后,我们需要对权重值进行处理,而处理的方式就是通过增加错分类点的权重 阅读全文

posted @ 2017-02-03 08:47 蓝调生活 阅读(2592) 评论(0) 推荐(0) 编辑

导航