数据挖掘-回归分析
回归分析
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器,自变量数量可以是单个也可以是多个)之间的关系。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析技术区别
回归分析的技术区别是自变量的个数,因变量的类型以及回归线的形状。
回归分析技术
1.Linear Regression线性回归
类似于一元方程拟合直线使用最小二乘法,对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时,偏差先平方,所以正值和负值没有抵消。
特点:对异常值敏感,常采用向前选择法、向后剔除法和逐步筛选法选择最重要的自变量。
2.Logistic Regression逻辑回归
逻辑回归是一个二分类问题。预测值y只有0和1两个取值(正类和负类), 如果我们忽略二分类问题中y的取值是一个离散的取值(0或1),我们继续使用线性回归来预测y的取值。这样做会导致y的取值并不为0或1。逻辑回归使用一个函数来归一化y值,使y的取值在区间(0,1)内,这个函数称为Logistic函数(logistic function),也称为Sigmoid函数(sigmoid function)。在进行样本估计是使用最大似然估计进行拟合,但是在样本数量极少的情况下,极大似然估计的效果比普通的最小二乘法差。
关于逻辑回归的公式和一般线性回归的关系推导可以参阅 逻辑回归
3.Polynomial Regression多项式回归
自变量指数大于1的回归方程就是多项式回归方程。
4.Stepwise Regression逐步回归
参考:http://www.advancedtechnic.com/ud/Stepwise%20Regression%20Analysis.htm
岭回归
变量间存在共线性是,最小二乘回归得到的系数不稳定,方差很大,这是因为系数矩阵x与它的转置矩阵相乘得到的矩阵不能求逆,
岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。根据高斯马尔科夫定力,多重相关性并不影响最小二乘法估计量的无偏性和最小方差性,但是,虽然最小二乘估计量在所有线性估计量中是方差最小的,但是这个方差都不一定小,而实际上可以找到一个有偏估计量,这个估计量虽然有较小的偏差,但它的精度却能够大大高于无偏的估计量。岭回归分析就是根据这个原理,通过在正规方程中引入有偏常熟二求的回归估计量的。
套索回归
它类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度。
7.ElasticNet回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。