[机器学习实战] Logistic回归
1. Logistic回归:
1)优点:计算代价不高,易于理解和实现;
2)缺点:容易欠拟合,分类精度可能不高;
3)适用数据类型:数值型和标称型数据;
2. 分类思想:
根据现有数据对分类边界线建立回归公式,以此进行分类。
这里借助sigmoid函数,其特点为当z为0时,sigmoid函数值为0.5;随着z的增大,对应的sigmoid值将逼近1;
而随着z的减小,sigmoid值将逼近0。
σ(z) = 1/(1 + e-z)
上述 z = w0x0 + w1x1 + w2x2 + .... + wnxn,其中x是分类器的输入数据(即特征数据),w是要计算的最佳参数。
利用sigmoid函数性质,当sigmoid值大于0.5则被分到类1,当sigmoid值小于0.5则被分到0。那么上述问题就可以抽象为
当w0,w1,w2...wn为何值时(即最佳回归系数),可以满足对于任意一条特征数据,将数据带入simoid函数可以获得分类。
对于w(最佳回归系数)来说,可以使用梯度上升算法进行计算,梯度上升算法的迭代公式:
w := w + φΔwf(w)
该公式将一直被迭代,直到停止条件,比如迭代次数达到指定值。其中φ称为步长,Δwf(w)总是指向函数值增长最快的方向。
理论上最终平衡时,w + φΔwf(w) ≈ w,即收敛变得稳定。
3. 一般流程:
1)收集数据:采用任意方法收集数据;
2)准备数据:由于涉及距离计算,需要数据类型为数值型;
3)分析数据:任意方法;
4)训练数据:为了找到最佳分类回归系数;
a. 使用梯度上升算法:
b. 使用随机梯度上升算法:
随机梯度上升算法与梯度上升算法效果相当,但占用更少的计算资源,刺猬,随机梯度上升是一个在线算法,
它可以在新数据来到时完成参数更新,不需要重新读取整个数据集来进行批处理运算。
5)测试算法:
6)使用算法:输入数据。
4. 应用:
从疝气病症预测马的死亡率。