数学 - 回归分析 - 第 2 章 一元线性回归 - 2.7 预测和控制

2.7 预测和控制

预测和控制是回归模型最重要的应用。

2.7.1 单值预测

单值预测就是用单个值作为因变量新值的预测值。比如我们研究某地区小麦亩产量 y 与施肥量 x 之间的关系,利用数据建立回归方程

y=β^0+β^1x

当给定 x 的值为 x0 时,可以得到因变量新值 y0=β0+β1x0+ε0 的单值预测:

y^0=β^0+β^1x0

预测目标 y0 是一个随机变量,根据式 E(y^0)=E(y0)=β0+β1x0 可知,预测值 y^0 与目标值 y0 有相同的均值,满足点估计的无偏性要求。

2.7.2 区间预测

以上的单值预测 y^0 只是这个地块小麦产量的大概值。仅知道这一点意义并不大,对于预测问题,除了知道预测值外,还希望知道预测的精度,这就需要做区间预测。具体来说,就是对于给定的显著性水平 α,找一个区间 (T1,T2),使对于某特定的 x0 的实际值 y01α 的概率被区间 (T1,T2) 包含,公式表示为

P(T1<y0<T2)=1α

对因变量的区间预测分为两种情况:一种是因变量新值的区间预测;另一种是因变量新值的平均值的区间预测

(1) 因变量新值的区间预测

为给出新值 y0 的置信区间,需要求出其估计值 y^0=β^0+β^1x0 的分布,由于 β^0β^1 都是 y1y2yn 的线性组合,因而 y^0 也是 y1y2yn 的线性组合,在正态假定下 y^0 服从正态分布。在之前期望和方差的计算中,由式 (2.3.10) 可以得到预测值 y^0 的分布

y^0N(β0+β1x0,(1n+(x0x¯)2Lxx)σ2)

我们记一个新的杠杆值

(2.7.1)h00=1n+(x0x¯)2Lxx

上式为新值 x0 的杠杆值,上式简写为:

(2.7.2)y^0N(β0+β1x0,h00σ2)

预测值 y^0 是先前独立观测到的随机变量 y1y2yn 的线性组合,现在因变量新值 y0 与之前的观测值 yi 是独立的,所以 y0y^0 是独立的。此时有

var(y0y^0)=var(y0)+var(y^0)=σ2+h00σ2

又由

E(y0)=E(y^0)E(y0y^0)=0

得到 y0y^0 的概率分布:

(2.7.3)y0y^0N(0,(1+h00)σ2)

由上式给出的分布构造枢轴变量

(2.7.4)t=y0y^01+h00σ^

类似于定理 2.6.1 的证明,我们可类似证明下式定理:

定理 2.7.1

(2.7.4) 构造的枢轴变量服从自由度为 n2t 分布。

给定显著性水平 α,得到

P(|y0y^01+h00σ^|tα/2(n2))=1α

由此求得 y0 的置信度为 1α 的置信区间为

(2.7.5)(y^0tα/2(n2)1+h00σ^,y^0+tα/2(n2)1+h00σ^)

当样本量 n 较大,|x0x¯| 较小时,h00 接近 0,此时 y0 的置信度为 95 的置信区间近似为:

(2.7.6)y^0±2σ^

由式 (2.7.5) 可以看到,对给定的显著性水平 α,样本量 n 越大,Lxx 越大,x0 越靠近 x¯,则置信区间长度越短,表明预测的精度越高

为了提高预测精度,样本量 n 越大越好,采集数据 x1x2xn 不能太集中。在进行预测时,所给定的 x0 不能偏离 x¯ 太大,否则预测效果肯定不好;如果给定值 x0=x¯,置信区间长度最短,此时的预测结果最好。

因此,如果在自变量观测值之外的范围做预测,精度会很差。在做预测时一定要看 x0x¯ 相差多大。

(2) 因变量新值的平均值的区间预测

(2.7.5) 给出的是因变量单个新值的置信区间,我们关心的另一种情况是因变量新值的平均值的区间估计。首先给出 E(y0) 的一个良好的点估计,由式 (2.3.4) 可仍将 y^0 作为 E(y0) 的估计。由于 E(y0)=β0+β1x0 是常数(β0β1 是模型未知常数)。

则有

(2.7.7)E(y^0E(y0))=0,var(y^0E(y0))=var(y^0)=h00σ2

故得到 y^0E(y0) 的分布

(2.7.8)y^0E(y0)N(0,h00σ2)

可类似构造统计量

(2.7.9)t=y^0E(y0)h00σ^t(n2)

进而可以得到置信度为 1α 的置信区间为:

(2.7.10)(y^0tα/2(n2)h00σ^,y^0+tα/2(n2)h00σ^)

注,有时我们将因变量平均值的区间预测称为置信区间,把因变量单个值的区间预测称为预测区间

2.7.3 控制问题

控制问题相当于预测的反问题。预测与控制有密切的关系。比如在一些经济问题中,我们要求 y 在一定范围内取值,对经济增长率,我们可能会希望经济增长能保持在 8,用数学表达式描述,即要求

T1<y<T2

问题是如何控制 x 呢?在统计学中进一步讨论如何控制自变量 x 的值才能以 1α 的概率保证把目标值控制在 T1<y<T2,即对事先给定的数 α(0<α<1)

(2.7.11)P(T1<y<T2)=1α

我们通常用近似的预测区间来确定 x。如果 α=0.05,我们不妨使用根据式 (2.7.6) 来做区间估计(使用其他区间估计也可以),可得不等式组

(2.7.12)y^(x)2σ^>T1,y^(x)+2σ^<T2

由此可求 x 的取值区间,由 y^(x)=β^0+β^1x

β^1>0

(2.7.13)T1+2σ^β^0β^1<x<T12σ^β^0β^1

β^1<0

(2.7.14)T22σ^β^0β^1<x<T1+2σ^β^0β^1

控制问题的应用要求因变量 y 与自变量 x 之间有因果关系,常用在工业生产的质量控制中。

posted on   Black_x  阅读(1126)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示