2.7 预测和控制
预测和控制是回归模型最重要的应用。
2.7.1 单值预测
单值预测就是用单个值作为因变量新值的预测值。比如我们研究某地区小麦亩产量 y 与施肥量 x 之间的关系,利用数据建立回归方程
y=^β0+^β1x
当给定 x 的值为 x0 时,可以得到因变量新值 y0=β0+β1x0+ε0 的单值预测:
^y0=^β0+^β1x0
预测目标 y0 是一个随机变量,根据式 E(^y0)=E(y0)=β0+β1x0 可知,预测值 ^y0 与目标值 y0 有相同的均值,满足点估计的无偏性要求。
2.7.2 区间预测
以上的单值预测 ^y0 只是这个地块小麦产量的大概值。仅知道这一点意义并不大,对于预测问题,除了知道预测值外,还希望知道预测的精度,这就需要做区间预测。具体来说,就是对于给定的显著性水平 α,找一个区间 (T1,T2),使对于某特定的 x0 的实际值 y0 以 1−α 的概率被区间 (T1,T2) 包含,公式表示为
P(T1<y0<T2)=1−α
对因变量的区间预测分为两种情况:一种是因变量新值的区间预测;另一种是因变量新值的平均值的区间预测。
(1) 因变量新值的区间预测
为给出新值 y0 的置信区间,需要求出其估计值 ^y0=^β0+^β1x0 的分布,由于 ^β0 和 ^β1 都是 y1,y2,⋯,yn 的线性组合,因而 ^y0 也是 y1,y2,⋯,yn 的线性组合,在正态假定下 ^y0 服从正态分布。在之前期望和方差的计算中,由式 (2.3.10) 可以得到预测值 ^y0 的分布
ˆy0∼N(β0+β1x0,(1n+(x0−¯¯¯x)2Lxx)σ2)
我们记一个新的杠杆值
h00=1n+(x0−¯¯¯x)2Lxx(2.7.1)
上式为新值 x0 的杠杆值,上式简写为:
ˆy0∼N(β0+β1x0,h00σ2)(2.7.2)
预测值 ^y0 是先前独立观测到的随机变量 y1,y2,⋯,yn 的线性组合,现在因变量新值 y0 与之前的观测值 yi 是独立的,所以 y0 与 ^y0 是独立的。此时有
var(y0−^y0)=var(y0)+var(^y0)=σ2+h00σ2
又由
E(y0)=E(^y0)⇒E(y0−^y0)=0
得到 y0−^y0 的概率分布:
y0−^y0∼N(0,(1+h00)σ2)(2.7.3)
由上式给出的分布构造枢轴变量
t=y0−^y0√1+h00^σ(2.7.4)
类似于定理 2.6.1 的证明,我们可类似证明下式定理:
定理 2.7.1
式 (2.7.4) 构造的枢轴变量服从自由度为 n−2 的 t 分布。
给定显著性水平 α,得到
P(∣∣∣y0−^y0√1+h00^σ∣∣∣⩽tα/2(n−2))=1−α
由此求得 y0 的置信度为 1−α 的置信区间为
(^y0−tα/2(n−2)√1+h00^σ,^y0+tα/2(n−2)√1+h00^σ)(2.7.5)
当样本量 n 较大,|x0−¯¯¯x| 较小时,h00 接近 0,此时 y0 的置信度为 95 的置信区间近似为:
^y0±2^σ(2.7.6)
由式 (2.7.5) 可以看到,对给定的显著性水平 α,样本量 n 越大,Lxx 越大,x0 越靠近 ¯¯¯x,则置信区间长度越短,表明预测的精度越高。
为了提高预测精度,样本量 n 越大越好,采集数据 x1,x2,⋯,xn 不能太集中。在进行预测时,所给定的 x0 不能偏离 ¯¯¯x 太大,否则预测效果肯定不好;如果给定值 x0=¯¯¯x,置信区间长度最短,此时的预测结果最好。
因此,如果在自变量观测值之外的范围做预测,精度会很差。在做预测时一定要看 x0 与 ¯¯¯x 相差多大。
(2) 因变量新值的平均值的区间预测
式 (2.7.5) 给出的是因变量单个新值的置信区间,我们关心的另一种情况是因变量新值的平均值的区间估计。首先给出 E(y0) 的一个良好的点估计,由式 (2.3.4) 可仍将 ^y0 作为 E(y0) 的估计。由于 E(y0)=β0+β1x0 是常数(β0 和 β1 是模型未知常数)。
则有
E(^y0−E(y0))=0,var(^y0−E(y0))=var(^y0)=h00σ2(2.7.7)
故得到 ^y0−E(y0) 的分布
^y0−E(y0)∼N(0,h00σ2)(2.7.8)
可类似构造统计量
t=^y0−E(y0)√h00^σ∼t(n−2)(2.7.9)
进而可以得到置信度为 1−α 的置信区间为:
(^y0−tα/2(n−2)√h00^σ,^y0+tα/2(n−2)√h00^σ)(2.7.10)
注,有时我们将因变量平均值的区间预测称为置信区间,把因变量单个值的区间预测称为预测区间。
2.7.3 控制问题
控制问题相当于预测的反问题。预测与控制有密切的关系。比如在一些经济问题中,我们要求 y 在一定范围内取值,对经济增长率,我们可能会希望经济增长能保持在 8,用数学表达式描述,即要求
T1<y<T2
问题是如何控制 x 呢?在统计学中进一步讨论如何控制自变量 x 的值才能以 1−α 的概率保证把目标值控制在 T1<y<T2,即对事先给定的数 α,(0<α<1)
P(T1<y<T2)=1−α(2.7.11)
我们通常用近似的预测区间来确定 x。如果 α=0.05,我们不妨使用根据式 (2.7.6) 来做区间估计(使用其他区间估计也可以),可得不等式组
^y(x)−2^σ>T1,^y(x)+2^σ<T2(2.7.12)
由此可求 x 的取值区间,由 ^y(x)=^β0+^β1x 得
当 ^β1>0 时
T1+2^σ−^β0^β1<x<T1−2^σ−^β0^β1(2.7.13)
当 ^β1<0 时
T2−2^σ−^β0^β1<x<T1+2^σ−^β0^β1(2.7.14)
控制问题的应用要求因变量 y 与自变量 x 之间有因果关系,常用在工业生产的质量控制中。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现