数学 - 回归分析 - 第 2 章 一元线性回归 - 2.5 残差分析

2.5 残差分析

一个线性回归方程通过了 t 检验或 F 检验,只是表明变量 x 与变量 y 之间的线性关系是显著的,或者说线性回归方程是有效的,但这并不能保证数据拟合的效果好,也不能排除由于某些原因导致的数据不可靠,比如异常值的出现、周期性因素的干扰等。

只有当与模型中的残差项有关的假定满足时,才能放心使用回归模型。因此,在利用回归方程做分析和预测之前,应该用残差图帮助我们诊断回归效果与样本数据的质量,并检查模型是否满足基本假设。

2.5.1 残差概念与残差图

定义 2.5.1 残差

ei=yiy^i

残差是实际观测值 y 与通过回归方程给出的回归值之差,因此残差 ei 可以看作误差项 εi 的估计值。

  • 残差项 ei=yiβ^0β^1xi

  • 误差项 εi=yiβ0β1xi

以自变量 x 作横轴(或以因变量 y 作横轴),以残差作纵轴,将相应的残差点画在直角坐标系上,即可得到残差图,残差图帮助我们对数据质量做一些分析。下图展示了一些常见的残差图,这些残差图各不相同,它们分别说明样本数据的不同表现情况。

一般认为,如果一个回归模型满足所给出的基本假定,所有残差应在 e=0 附近随机变化,并在变化幅度不大的一个区域内。

图(a)的情况,表明回归模型满足基本假设。

图(b)的情况,表明 y 的观测值的方差并不相同,而是随着 x 的增大而增大。

图(c)的情况,表明 yx 之间的关系并非线性关系,而是曲线关系。另一种可能性是 y 存在自相关。

图(d)的情况,称为蛛网现象,表明 y 存在自相关。

2.5.2 残差平方和与回归标准误差

根据之前介绍的内容,定义残差平方和为

(2.5.1)SSE=i=1nei2=i=1n(yiy^i)2

用残差平方和作为回归误差的估计,定义回归标准平方误差

(2.5.2)σ^2=SSEn2

注意上式的分母是为了保证使 σ^2σ2无偏估计(分母为 n 时的点估计 σ^2 是有偏估计)。此外,我们称 σ^回归标准误差,表示为

(2.5.3)σ^=SSEn2=i=1n(yiy^i)2n2

2.5.3 残差有关的性质

性质 2.5.1

E(ei)=0

证明:

E(ei)=E(yi)E(y^i)=(β0+β1xi)(β0+β1xi)=0

证毕。

性质 2.5.2

  • cov(yi,β^1)=xix¯Lxxσ2

  • cov(y¯,β^1)=0

  • var(ei)=[11n(xix¯)2Lxx]σ2=(1hii)σ2

  • cov(yi,y^i)=

  • E(σ^2)=σ2

证明:β^1 的线性性质式 (2.3.1),可以证明第一点

cov(yi,β^1)=cov(yi,i=1nxix¯Lxxyi)=i=1nxix¯Lxxσ2

由此证明第二点

cov(y¯,β^1)=cov(i=1nyin,i=1nxix¯Lxxyi)=1nLxxi=1n(xix¯)var(yi)=0

由于对残差有

ei=yiy^i=yiy¯β^1(xix¯)

由此可证明第三点

var(ei)=var(yi)+var(y¯)+var(β^1(xix¯))2cov(yi,y¯)2cov(yi,β^1(xix¯))+2cov(y¯,β^1(xix¯))=σ2+1nσ2+(xix¯)2σ2Lxx2nσ22(xix¯)xix¯Lxxσ2+0=σ21nσ2(xix¯)2σ2Lxx=[11n(xix¯)2Lxx]σ2

利用 yiy^i 的方差并结合第三点可以证明第四点。

由回归标准误差的定义式 (2.5.2) 可证明第五点

E(σ^2)=1n2i=1nE(ei2)=1n2i=1nvar(ei)=1n2i=1n[11n(xix¯)2Lxx]σ2=σ2

证毕。

式中,hii 被称为杠杆值且 0<hii<1。表示为

hii=1n+(xix¯)2Lxx

xi 靠近 x¯ 时,hii 的值接近 0,相应的残差方差越大;当 xi 远离 x¯ 时,hii 的值接近 1,相应的残差方差越小。

也即是说,靠近 x¯ 的点相应的残差方差越大,远离 x¯ 的点相应的残差方差越小。

性质 2.5.3

残差满足约束条件 i=1nei=0i=1nxiei=0。这表明残差 e1e2en是相关的,不是独立的。

2.5.4 改进的残差

残差分析中,一般认为超过 ±2σ^±3σ^ 的残差为异常值,考虑到普通残差 e1e2en 的方差不等,用 ei 做判断和比较会带来一些麻烦,我们引入标准化残差和学生化残差的概念,分别定义如下:

标准化残差定义为

(2.5.4)ZREi=eiσ^

更为重要的是学生化残差被定义为

(2.5.5)SREi=eiσ^1hii

标准化残差使残差具有可比性,|ZREi|>3 的相应观测值判定为异常值,这简化了判定工作。而学生化残差进一步解决了方差不等的问题,因此在寻找异常值时,用学生化残差优于用普通残差,|SREi|>3 的相应观测值判定为异常值。

学生化残差的构造公式类似于 t 检验公式,因而把式 (2.5.5) 称为学生化残差。

posted on   Black_x  阅读(5398)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示