[机器学习实战] Logistic回归

1. Logistic回归:

  1)优点:计算代价不高,易于理解和实现;

  2)缺点:容易欠拟合,分类精度可能不高;

  3)适用数据类型:数值型和标称型数据;

 

2. 分类思想:

  根据现有数据对分类边界线建立回归公式,以此进行分类。

  这里借助sigmoid函数,其特点为当z为0时,sigmoid函数值为0.5;随着z的增大,对应的sigmoid值将逼近1;

  而随着z的减小,sigmoid值将逼近0。

    σ(z) = 1/(1 + e-z)

  上述 z = w0x0 + w1x+ w2x+ .... + wnxn,其中x是分类器的输入数据(即特征数据),w是要计算的最佳参数。

  利用sigmoid函数性质,当sigmoid值大于0.5则被分到类1,当sigmoid值小于0.5则被分到0。那么上述问题就可以抽象为

  当w0,w1,w2...wn为何值时(即最佳回归系数),可以满足对于任意一条特征数据,将数据带入simoid函数可以获得分类。

  对于w(最佳回归系数)来说,可以使用梯度上升算法进行计算,梯度上升算法的迭代公式:

    w := w + φΔwf(w)

  该公式将一直被迭代,直到停止条件,比如迭代次数达到指定值。其中φ称为步长,Δwf(w)总是指向函数值增长最快的方向。

  理论上最终平衡时,w + φΔwf(w) ≈ w,即收敛变得稳定。

 

3. 一般流程:

  1)收集数据:采用任意方法收集数据;

  2)准备数据:由于涉及距离计算,需要数据类型为数值型;

  3)分析数据:任意方法;

  4)训练数据:为了找到最佳分类回归系数;

    a. 使用梯度上升算法:

      

    b. 使用随机梯度上升算法:

      

    随机梯度上升算法与梯度上升算法效果相当,但占用更少的计算资源,刺猬,随机梯度上升是一个在线算法,

    它可以在新数据来到时完成参数更新,不需要重新读取整个数据集来进行批处理运算。

  5)测试算法:

  6)使用算法:输入数据。  

4. 应用:

  从疝气病症预测马的死亡率。

 

posted on 2017-07-27 16:17  霏霏暮雨  阅读(270)  评论(0编辑  收藏  举报

导航