数据挖掘-回归分析

回归分析

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器,自变量数量可以是单个也可以是多个)之间的关系。

这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系

例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。


 

回归分析技术区别

  回归分析的技术区别是自变量的个数,因变量的类型以及回归线的形状。

 


 

回归分析技术

1.Linear Regression线性回归

  类似于一元方程拟合直线使用最小二乘法,对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时,偏差先平方,所以正值和负值没有抵消。

     特点:对异常值敏感,常采用向前选择法、向后剔除法和逐步筛选法选择最重要的自变量。

 

2.Logistic Regression逻辑回归

  逻辑回归是一个二分类问题。预测值y只有0和1两个取值(正类和负类), 如果我们忽略二分类问题中y的取值是一个离散的取值(0或1),我们继续使用线性回归来预测y的取值。这样做会导致y的取值并不为0或1。逻辑回归使用一个函数来归一化y值,使y的取值在区间(0,1)内,这个函数称为Logistic函数(logistic function),也称为Sigmoid函数(sigmoid function)。在进行样本估计是使用最大似然估计进行拟合,但是在样本数量极少的情况下,极大似然估计的效果比普通的最小二乘法差。

     关于逻辑回归的公式和一般线性回归的关系推导可以参阅 逻辑回归

 

3.Polynomial Regression多项式回归

  自变量指数大于1的回归方程就是多项式回归方程。

  

4.Stepwise Regression逐步回归

参考:http://www.advancedtechnic.com/ud/Stepwise%20Regression%20Analysis.htm

 

岭回归

变量间存在共线性是,最小二乘回归得到的系数不稳定,方差很大,这是因为系数矩阵x与它的转置矩阵相乘得到的矩阵不能求逆,

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。根据高斯马尔科夫定力,多重相关性并不影响最小二乘法估计量的无偏性和最小方差性,但是,虽然最小二乘估计量在所有线性估计量中是方差最小的,但是这个方差都不一定小,而实际上可以找到一个有偏估计量,这个估计量虽然有较小的偏差,但它的精度却能够大大高于无偏的估计量。岭回归分析就是根据这个原理,通过在正规方程中引入有偏常熟二求的回归估计量的。

 

套索回归

 它类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度。

 

7.ElasticNet回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。

 

posted @ 2016-10-18 15:36  小小小的程序猿  阅读(1055)  评论(0编辑  收藏  举报
window.onload = function(){ $("#live2dcanvas").attr("style","position: fixed; opacity: 0.7; left: 70px; bottom: 0px; z-index: 1; pointer-events: none;") }