论线性回归中残差图的重要性
Y1 X1 Y2 X2 Y3 X3 Y4 X4 8.04 10 9.14 10 7.46 10 6.58 8 6.95 8 8.14 8 6.77 8 5.76 8 7.58 13 8.74 13 12.74 13 7.71 8 8.81 9 8.77 9 7.11 9 8.84 8 8.33 11 9.26 11 7.81 11 8.47 8 9.96 14 8.1 14 8.84 14 7.04 8 7.24 6 6.13 6 6.08 6 5.25 8 4.26 4 3.1 4 5.39 4 12.5 19 10.84 12 9.13 12 8.15 12 5.56 8 4.82 7 7.26 7 6.42 7 7.91 8 5.68 5 4.74 5 5.73 5 6.89 8
数据集如上,用sas读入后再做简单线性回归,四个回归的模型都一样,残差平方和,负相关系数也一样
那么,是不是可以说这四组数据拟合的模型都正确呢?
我们画出其各自的散点图,如下
很明显,只有左上方的图才有用线性模型描述的可能性,其他的模型都不适合。
OK~,这里是简单线性模型,只有一个自变量,如果上升到多个自变量时,无法用肉眼从图形判别的我们该做什么呢?
这就是残差图大展身手的地方了(这里只选取残差和因变量进行作图)
proc reg data=regbook.anscombefour; model y1= x1; plot r.*p.; model y2= x2; plot r.*p.; model y3= x3; plot r.*p.; model y1= x1; plot r.*p.; run; quit;
因为在这里不清楚如何用sas组合四幅图,所以就没贴出来,如果是线性模型,那么残差应该符合正态分布的假设,所以残差应该围绕0上下无规律波动,如下(y1*x1的残差图)
如果不是这种形状,就表明拟合的模型有问题,同理,残差和自变量在线性假设中也是独立的,也可以拿来进行检验。