数据挖掘-回归分析

回归分析

回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器，自变量数量可以是单个也可以是多个）之间的关系。

这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。

例如，司机的鲁莽驾驶与道路交通事故数量之间的关系，最好的研究方法就是回归。

回归分析技术区别

　　回归分析的技术区别是自变量的个数，因变量的类型以及回归线的形状。

回归分析技术

1.Linear Regression线性回归

　　类似于一元方程拟合直线使用最小二乘法，对于观测数据，它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时，偏差先平方，所以正值和负值没有抵消。

特点：对异常值敏感，常采用向前选择法、向后剔除法和逐步筛选法选择最重要的自变量。

2.Logistic Regression逻辑回归

　　逻辑回归是一个二分类问题。预测值y只有0和1两个取值（正类和负类），如果我们忽略二分类问题中y的取值是一个离散的取值（0或1），我们继续使用线性回归来预测y的取值。这样做会导致y的取值并不为0或1。逻辑回归使用一个函数来归一化y值，使y的取值在区间(0,1)内，这个函数称为Logistic函数(logistic function)，也称为Sigmoid函数(sigmoid function)。在进行样本估计是使用最大似然估计进行拟合，但是在样本数量极少的情况下，极大似然估计的效果比普通的最小二乘法差。

关于逻辑回归的公式和一般线性回归的关系推导可以参阅逻辑回归

3.Polynomial Regression多项式回归

　　自变量指数大于1的回归方程就是多项式回归方程。

4.Stepwise Regression逐步回归

参考：http://www.advancedtechnic.com/ud/Stepwise%20Regression%20Analysis.htm

岭回归

变量间存在共线性是，最小二乘回归得到的系数不稳定，方差很大，这是因为系数矩阵x与它的转置矩阵相乘得到的矩阵不能求逆，

岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价，获得回归系数更为符合实际、更可靠的回归方法，对病态数据的耐受性远远强于最小二乘法。根据高斯马尔科夫定力，多重相关性并不影响最小二乘法估计量的无偏性和最小方差性，但是，虽然最小二乘估计量在所有线性估计量中是方差最小的，但是这个方差都不一定小，而实际上可以找到一个有偏估计量，这个估计量虽然有较小的偏差，但它的精度却能够大大高于无偏的估计量。岭回归分析就是根据这个原理，通过在正规方程中引入有偏常熟二求的回归估计量的。

套索回归

它类似于岭回归，Lasso （Least Absolute Shrinkage and Selection Operator）也会惩罚回归系数的绝对值大小。此外，它能够减少变化程度并提高线性回归模型的精度。

7.ElasticNet回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时，ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个，而ElasticNet则会选择两个。

posted @ 2016-10-18 15:36 小小小的程序猿阅读(1074) 评论(0) 编辑收藏举报

刷新页面返回顶部

小小小的程序媛

数据挖掘-回归分析

回归分析

回归分析技术区别

回归分析技术