数学 - 回归分析 - 第 2 章 一元线性回归 - 2.7 预测和控制
2.7 预测和控制
预测和控制是回归模型最重要的应用。
2.7.1 单值预测
单值预测就是用单个值作为因变量新值的预测值。比如我们研究某地区小麦亩产量 \(y\) 与施肥量 \(x\) 之间的关系,利用数据建立回归方程
当给定 \(x\) 的值为 \(x_0\) 时,可以得到因变量新值 \(y_0 = \beta_0 + \beta_1 x_0 + \varepsilon_0\) 的单值预测:
预测目标 \(y_0\) 是一个随机变量,根据式 \(E(\hat{y}_0)=E(y_0)=\beta_0+\beta_1 x_0\) 可知,预测值 \(\hat{y}_0\) 与目标值 \(y_0\) 有相同的均值,满足点估计的无偏性要求。
2.7.2 区间预测
以上的单值预测 \(\hat{y}_0\) 只是这个地块小麦产量的大概值。仅知道这一点意义并不大,对于预测问题,除了知道预测值外,还希望知道预测的精度,这就需要做区间预测。具体来说,就是对于给定的显著性水平 \(\alpha\),找一个区间 \((T_1, T_2)\),使对于某特定的 \(x_0\) 的实际值 \(y_0\) 以 \(1-\alpha\) 的概率被区间 \((T_1, T_2)\) 包含,公式表示为
对因变量的区间预测分为两种情况:一种是因变量新值的区间预测;另一种是因变量新值的平均值的区间预测。
(1) 因变量新值的区间预测
为给出新值 \(y_0\) 的置信区间,需要求出其估计值 \(\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0\) 的分布,由于 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 都是 \(y_1\),\(y_2\),\(\cdots\),\(y_n\) 的线性组合,因而 \(\hat{y}_0\) 也是 \(y_1\),\(y_2\),\(\cdots\),\(y_n\) 的线性组合,在正态假定下 \(\hat{y}_0\) 服从正态分布。在之前期望和方差的计算中,由式 \((2.3.10)\) 可以得到预测值 \(\hat{y}_0\) 的分布
我们记一个新的杠杆值
上式为新值 \(x_0\) 的杠杆值,上式简写为:
预测值 \(\hat{y}_0\) 是先前独立观测到的随机变量 \(y_1\),\(y_2\),\(\cdots\),\(y_n\) 的线性组合,现在因变量新值 \(y_0\) 与之前的观测值 \(y_i\) 是独立的,所以 \(y_0\) 与 \(\hat{y}_0\) 是独立的。此时有
又由
得到 \(y_0 - \hat{y}_0\) 的概率分布:
由上式给出的分布构造枢轴变量
类似于定理 \(2.6.1\) 的证明,我们可类似证明下式定理:
定理 2.7.1
式 \((2.7.4)\) 构造的枢轴变量服从自由度为 \(n-2\) 的 \(t\) 分布。
给定显著性水平 \(\alpha\),得到
由此求得 \(y_0\) 的置信度为 \(1-\alpha\) 的置信区间为
当样本量 \(n\) 较大,\(|x_0 - \overline{x}|\) 较小时,\(h_{00}\) 接近 \(0\),此时 \(y_0\) 的置信度为 \(95%\) 的置信区间近似为:
由式 \((2.7.5)\) 可以看到,对给定的显著性水平 \(\alpha\),样本量 \(n\) 越大,\(L_{xx}\) 越大,\(x_0\) 越靠近 \(\overline{x}\),则置信区间长度越短,表明预测的精度越高。
为了提高预测精度,样本量 \(n\) 越大越好,采集数据 \(x_1\),\(x_2\),\(\cdots\),\(x_n\) 不能太集中。在进行预测时,所给定的 \(x_0\) 不能偏离 \(\overline{x}\) 太大,否则预测效果肯定不好;如果给定值 \(x_0=\overline{x}\),置信区间长度最短,此时的预测结果最好。
因此,如果在自变量观测值之外的范围做预测,精度会很差。在做预测时一定要看 \(x_0\) 与 \(\overline{x}\) 相差多大。
(2) 因变量新值的平均值的区间预测
式 \((2.7.5)\) 给出的是因变量单个新值的置信区间,我们关心的另一种情况是因变量新值的平均值的区间估计。首先给出 \(E(y_0)\) 的一个良好的点估计,由式 \((2.3.4)\) 可仍将 \(\hat{y}_0\) 作为 \(E(y_0)\) 的估计。由于 \(E(y_0) = \beta_0 + \beta_1 x_0\) 是常数(\(\beta_0\) 和 \(\beta_1\) 是模型未知常数)。
则有
故得到 \(\hat{y}_0 - E(y_0)\) 的分布
可类似构造统计量
进而可以得到置信度为 \(1-\alpha\) 的置信区间为:
注,有时我们将因变量平均值的区间预测称为置信区间,把因变量单个值的区间预测称为预测区间。
2.7.3 控制问题
控制问题相当于预测的反问题。预测与控制有密切的关系。比如在一些经济问题中,我们要求 \(y\) 在一定范围内取值,对经济增长率,我们可能会希望经济增长能保持在 \(8% \sim 12%\),用数学表达式描述,即要求
问题是如何控制 \(x\) 呢?在统计学中进一步讨论如何控制自变量 \(x\) 的值才能以 \(1-\alpha\) 的概率保证把目标值控制在 \(T_1 < y < T_2\),即对事先给定的数 \(\alpha\),\((0<\alpha<1)\)
我们通常用近似的预测区间来确定 \(x\)。如果 \(\alpha = 0.05\),我们不妨使用根据式 \((2.7.6)\) 来做区间估计(使用其他区间估计也可以),可得不等式组
由此可求 \(x\) 的取值区间,由 \(\hat{y}(x) = \hat{\beta}_0 + \hat{\beta}_1 x\) 得
当 \(\hat{\beta}_1 > 0\) 时
当 \(\hat{\beta}_1 < 0\) 时
控制问题的应用要求因变量 \(y\) 与自变量 \(x\) 之间有因果关系,常用在工业生产的质量控制中。
浙公网安备 33010602011771号