2.5 残差分析
一个线性回归方程通过了 t 检验或 F 检验,只是表明变量 x 与变量 y 之间的线性关系是显著的,或者说线性回归方程是有效的,但这并不能保证数据拟合的效果好,也不能排除由于某些原因导致的数据不可靠,比如异常值的出现、周期性因素的干扰等。
只有当与模型中的残差项有关的假定满足时,才能放心使用回归模型。因此,在利用回归方程做分析和预测之前,应该用残差图帮助我们诊断回归效果与样本数据的质量,并检查模型是否满足基本假设。
2.5.1 残差概念与残差图
定义 2.5.1 残差
ei=yi−ˆyi
残差是实际观测值 y 与通过回归方程给出的回归值之差,因此残差 ei 可以看作误差项 εi 的估计值。
以自变量 x 作横轴(或以因变量 y 作横轴),以残差作纵轴,将相应的残差点画在直角坐标系上,即可得到残差图,残差图帮助我们对数据质量做一些分析。下图展示了一些常见的残差图,这些残差图各不相同,它们分别说明样本数据的不同表现情况。
一般认为,如果一个回归模型满足所给出的基本假定,所有残差应在 e=0 附近随机变化,并在变化幅度不大的一个区域内。

图(a)的情况,表明回归模型满足基本假设。
图(b)的情况,表明 y 的观测值的方差并不相同,而是随着 x 的增大而增大。
图(c)的情况,表明 y 与 x 之间的关系并非线性关系,而是曲线关系。另一种可能性是 y 存在自相关。
图(d)的情况,称为蛛网现象,表明 y 存在自相关。
2.5.2 残差平方和与回归标准误差
根据之前介绍的内容,定义残差平方和为
SSE=n∑i=1e2i=n∑i=1(yi−^yi)2(2.5.1)
用残差平方和作为回归误差的估计,定义回归标准平方误差:
^σ2=SSEn−2(2.5.2)
注意上式的分母是为了保证使 ^σ2 是 σ2 的无偏估计(分母为 n 时的点估计 ^σ2 是有偏估计)。此外,我们称 ^σ 是回归标准误差,表示为
^σ=√SSEn−2=√∑ni=1(yi−^yi)2n−2(2.5.3)
2.5.3 残差有关的性质
性质 2.5.1
E(ei)=0
证明:
E(ei)=E(yi)−E(ˆyi)=(β0+β1xi)−(β0+β1xi)=0
证毕。
性质 2.5.2
-
cov(yi,^β1)=xi−¯¯¯xLxxσ2
-
cov(¯¯¯y,^β1)=0
-
var(ei)=[1−1n−(xi−¯¯¯x)2Lxx]σ2=(1−hii)σ2
-
cov(yi,^yi)=
-
E(^σ2)=σ2
证明:由 ^β1 的线性性质式 (2.3.1),可以证明第一点
cov(yi,^β1)=cov(yi,n∑i=1xi−¯¯¯xLxxyi)=n∑i=1xi−¯¯¯xLxxσ2
由此证明第二点
cov(¯¯¯y,^β1)=cov(∑ni=1yin,n∑i=1xi−¯¯¯xLxxyi)=1nLxxn∑i=1(xi−¯¯¯x)var(yi)=0
由于对残差有
ei=yi−^yi=yi−¯¯¯y−^β1(xi−¯¯¯x)
由此可证明第三点
var(ei)=var(yi)+var(¯¯¯y)+var(^β1(xi−¯¯¯x))−2cov(yi,¯¯¯y)−2cov(yi,^β1(xi−¯¯¯x))+2cov(¯¯¯y,^β1(xi−¯¯¯x))=σ2+1nσ2+(xi−¯¯¯x)2σ2Lxx−2nσ2−2(xi−¯¯¯x)xi−¯¯¯xLxxσ2+0=σ2−1nσ2−(xi−¯¯¯x)2σ2Lxx=[1−1n−(xi−¯¯¯x)2Lxx]σ2
利用 yi 和 ^yi 的方差并结合第三点可以证明第四点。
由回归标准误差的定义式 (2.5.2) 可证明第五点
E(^σ2)=1n−2n∑i=1E(e2i)=1n−2n∑i=1var(ei)=1n−2n∑i=1[1−1n−(xi−¯¯¯x)2Lxx]σ2=σ2
证毕。
式中,hii 被称为杠杆值且 0<hii<1。表示为
hii=1n+(xi−¯¯¯x)2Lxx
当 xi 靠近 ¯¯¯x 时,hii 的值接近 0,相应的残差方差越大;当 xi 远离 ¯¯¯x 时,hii 的值接近 1,相应的残差方差越小。
也即是说,靠近 ¯¯¯x 的点相应的残差方差越大,远离 ¯¯¯x 的点相应的残差方差越小。
性质 2.5.3
残差满足约束条件 ∑ni=1ei=0,∑ni=1xiei=0。这表明残差 e1、e2、⋯、en是相关的,不是独立的。
2.5.4 改进的残差
残差分析中,一般认为超过 ±2^σ 或 ±3^σ 的残差为异常值,考虑到普通残差 e1、e2、⋯、en 的方差不等,用 ei 做判断和比较会带来一些麻烦,我们引入标准化残差和学生化残差的概念,分别定义如下:
标准化残差定义为
ZREi=ei^σ(2.5.4)
更为重要的是学生化残差被定义为
SREi=ei^σ√1−hii(2.5.5)
标准化残差使残差具有可比性,|ZREi|>3 的相应观测值判定为异常值,这简化了判定工作。而学生化残差进一步解决了方差不等的问题,因此在寻找异常值时,用学生化残差优于用普通残差,|SREi|>3 的相应观测值判定为异常值。
学生化残差的构造公式类似于 t 检验公式,因而把式 (2.5.5) 称为学生化残差。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现