广义回归算法通释
广义回归算法的分类
广义的回归算法有很多种,从用途划分有预测(即狭义回归)、分类两大类。
响应变量是连续性变量,即预测算法;响应变量是类别型变量,即分类算法。
判定边界可以用方程函数表达
特征可以是单个(单变量、二维空间),也可以是多个(多变量、高维空间)。
线性关系是直线(二维空间)、平面(高维空间),非线性关系是曲线(二维空间)、曲面(高维空间)。
避免模型欠拟合或者过拟合:欠拟合,准确性低;过拟合,通用性差,样本变动会导致准确性极度不稳定。
下图是几种不同风格的2D图像,计算机目前也仅能展示到3D,可以暂且将4D甚至更高维都看成类似2D、3D的图像原理:总是有一种判定边界,不管是直线、圆、曲线,还是曲面,都能将样本拟合或者分割。这些判定边界也总是能用方程式表达出来:线性方程、多项式方程、指数方程、logistic方程,反正总有方程函数可以表达。
最优判定边界即最小化损失函数
不管预测还是分类,都属于监督学习。
监督学习的优化方法=损失函数+对损失函数的优化。
所以,回归算法要明确损失函数的定义、最小化损失函数。
损失函数:度量预测值和实际值的距离偏差,注意距离的计算公式并不是固定的。
不管模型是什么方程函数,其损失函数一般都是凹或凹凸曲面,最凹点就是最小值。
用梯度下降法求损失函数最小值
最小化损失函数,首先会想到求极值的数学思想:对自变量求导=0。
但由于计算量巨大性能消耗过多,所以并不用求导的路子,而是用梯度下降法。
梯度下降法:将曲面看成是一座山,找到下山路方向,每次迈出一步,直到山底。
注意步子太大,可能会跳过山底,无法收敛;步子太小,又会导致收敛速度过慢,时间成本大。
用梯度下降法求损失函数的最小值,就是求判定边界的方程函数的最优参数,最优参数=最优判定边界。
常说的线性回归属于预测算法,常说的LR逻辑回归属于分类算法。两者关系:
线性回归在整个实数域范围内进行预测,敏感度一致。逻辑回归将预测值限定[0,1]之间。
逻辑回归是在线性/多项式方程的基础上加入了sigmoid函数,将预测值两端极限化。
线性回归的损失函数:平方损失函数,逻辑回归的损失函数:对数损失函数。
线性回归的优化思想:最小二乘,逻辑回归的优化思想:似然函数。