Minitab中相关系数R-Sq和修正R-Sq(adj)的意思,计算公式和区别[转载]

转载自:http://www.pinzhi.org/thread-7762-1-1.html

Minitab中相关系数R-Sq和修正的相关系数R-Sq(adj)的意思,计算公式和区别

Minitab回归方程,或类似的运算中,经常会碰到多元相关系数R-Sq修正的多元相关系数R-Sq(adj),那么,这2个是什么意思?具体的计算公式和区别是什么?

拟合的总效果多元全相关系数(Multiple correlation coefficient) R²(即R=Sq)和修正的多元相关系数(Adjusted multiple correlation coefficient)R²adj(即R-Sq(adj))

由回归方程中的平方和分解公式可知:

SSTotal = SSModel + SSError

考虑到SSModel在SSTotal中的比例,定义R平方(R-Square,简记R-Sq):

R² = SSModel/SSTotal

显然,此数值越接近于1就越好,意味着SSError就越小,同样,上面的公式可以写成

R² = 1- (SSError/SSTotal)

如果将自变量的这种可控的普通变量数据也堪称随机变量,则可以求出二者间的相关系数(Correlation coefficient)。而R-sq恰好就是相关系数的平方。因此,它的含义是很好理解的。对于多个自变量的情况,定义不变,它被推广为“多元决定系数”,仍然表示SSModel在SSTotal中的比例。但他也有一个缺点:当自变量个数增加时,例如只增加一个新自变量,不管增加的这个自变量是否显著,R²(R-Sq)都会增加一些,因而在评价是否该增加此变量进入回归方程时,使用R²就没有价值了。为此,我们引入修正的R²,即R²adj,它的定义是:

 

上式中,n为观测值的总个数,p为回归方程中的总项数(包括常数项在内)。也就是说,R²adj(即R-Sq(adj))是扣除了回归方程中所受到的包含项数的影响的相关系数,因而可以更准确地反映模型的好坏,同样,它也是越接近于1就越好,而且在实际应用中,由于回归方程所含项数p总会大于等于1,因而容易看出,R²adj总比R²要稍小一些。

因此,要判断两个模型的优劣可以从R-Sq(adj)和R-Sq的接近程度来判断:二者之差越小则说明模型越好,我们常常比较包含所有自变量有关项的“全模型”与删去所有影响不显著的项后的“缩减模型”,看看究竟哪个更好,如果将影响不显著地项删去之后,二者更接近,则说明删去这些项确实使模型得到改进。

posted @ 2015-12-05 13:29  十点  阅读(7607)  评论(0编辑  收藏  举报