回归分析-概述
在大数据分析中,回归分析是一种预测性的建模技术,旨在通过数据统计分析,探索数据规律。回归分析主要研究因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
1. Linear Regression线性回归
线性回归是最常见的回归分析技术。在线性回归中,因变量是连续的,自变量可以是连续的也可以是离散的,线性回归的本质是线性的。
线性回归使用最优拟合直线(回归线),在因变量y
和一个或多个自变量X
之间建立一种关系。在回归方程\(Y = bX + a\)中,斜率b
称为回归系数,表示X
每变动一单位,平均而言,Y
将变动b
单位。
2. Logistic Regression逻辑回归
是一种广义的线性回归分析模型,属于机器学习中的监督学习。其推导过程与计算方式类似于回归分析过程,但是实际上主要用来解决二分类问题。
逻辑回归的核心是sigmoid函数\(\sigma (x) = \frac{1}{1+e^{-x}}\),这个函数能将输入的每一组数据\(x^{i}\)映射到0-1
之间。并且如果函数值大于0.5,就判断属于类别1
,否则属于0
。那么更为一般化,则有
\(h(x^{i}) = \frac{1}{1+e^{-(w^{T}x+b)}}\)。容易得到\(h(x^{i})\)属于类别0,当\(w^{T}x+b < 0\)时,反则反之。
3. Polynominal Regression多项式回归
对于一个回归方程,如果自变量的指数大于1,则为多项式回归方程,例如:
\(y = b*x^{2} + a\),这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。
4. Stepwise Regression逐步回归
在处理多个自变量时,可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square
,t-stats
和AIC
指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法:
标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。
向前选择法从模型中最显著的预测开始,然后为每一步添加变量。
向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显著性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一
5. Ridge Regression岭回归
当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。
在线性等式中,预测误差可以划分为 2 个分量,一个是偏差造成的,一个是方差造成的。预测误差可能会由这两者或两者中的任何一个造成。在这里,将讨论由方差所造成的误差。
岭回归通过收缩参数λ(lambda)解决多重共线性问题。请看下面的等式:
\(argmin J(\beta) = \left \| y-X\beta \right \|_{2}^{2} +\lambda \left \| \beta \right \| _{2}\)
岭回归即对应着在最小二乘法基础上增加了一个L2正则化。
6. Lasso Regression套索回归
Lasso(Least Absolute Shrinkage and Selection Operator)也会就回归系数向量给出惩罚值项。此外,它能够减少变化程度并提高线性回归模型的精度。公式如下:
\(argmin J(\beta) = \left \| y-X\beta \right \|_{2}^{2} +\lambda \left \| \beta \right \| _{1}\)
与岭回归不同的是目标函数后加一个权重\(\beta\)的1-范数。
7. ElasticNet 弹性网络回归
弹性网络回归算法的代价函数结合了 Lasso
回归和岭回归的正则化方法,通过两个参数\(\lambda\)和 \(\rho\)来控制惩罚项的大小。具体公式如下:
\(Cost(w) = \sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} + \lambda \rho \left \| w \right \| _{1} + \frac{\lambda (1-\rho )}{2}\left \| w \right \|_{2}^{2}\)