数学 - 回归分析 - 第 2 章 一元线性回归 - 2.7 预测和控制

2.7 预测和控制

预测和控制是回归模型最重要的应用。

2.7.1 单值预测

单值预测就是用单个值作为因变量新值的预测值。比如我们研究某地区小麦亩产量 \(y\) 与施肥量 \(x\) 之间的关系,利用数据建立回归方程

\[y = \hat{\beta}_0 + \hat{\beta}_1 x \]

当给定 \(x\) 的值为 \(x_0\) 时,可以得到因变量新值 \(y_0 = \beta_0 + \beta_1 x_0 + \varepsilon_0\) 的单值预测:

\[\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0 \]

预测目标 \(y_0\) 是一个随机变量,根据式 \(E(\hat{y}_0)=E(y_0)=\beta_0+\beta_1 x_0\) 可知,预测值 \(\hat{y}_0\) 与目标值 \(y_0\) 有相同的均值,满足点估计的无偏性要求。

2.7.2 区间预测

以上的单值预测 \(\hat{y}_0\) 只是这个地块小麦产量的大概值。仅知道这一点意义并不大,对于预测问题,除了知道预测值外,还希望知道预测的精度,这就需要做区间预测。具体来说,就是对于给定的显著性水平 \(\alpha\),找一个区间 \((T_1, T_2)\),使对于某特定的 \(x_0\) 的实际值 \(y_0\)\(1-\alpha\) 的概率被区间 \((T_1, T_2)\) 包含,公式表示为

\[P(T_1 < y_0 < T_2) =1-\alpha \]

对因变量的区间预测分为两种情况:一种是因变量新值的区间预测;另一种是因变量新值的平均值的区间预测

(1) 因变量新值的区间预测

为给出新值 \(y_0\) 的置信区间,需要求出其估计值 \(\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0\) 的分布,由于 \(\hat{\beta}_0\)\(\hat{\beta}_1\) 都是 \(y_1\)\(y_2\)\(\cdots\)\(y_n\) 的线性组合,因而 \(\hat{y}_0\) 也是 \(y_1\)\(y_2\)\(\cdots\)\(y_n\) 的线性组合,在正态假定下 \(\hat{y}_0\) 服从正态分布。在之前期望和方差的计算中,由式 \((2.3.10)\) 可以得到预测值 \(\hat{y}_0\) 的分布

\[\widehat{y}_0 \sim N \left( \beta_0 + \beta_1 x_0, \left( \frac{1}{n} + \frac{(x_0 - \overline{x})^2}{L_{xx}} \right) \sigma^2 \right) \]

我们记一个新的杠杆值

\[h_{00} = \frac{1}{n} + \frac{(x_0 - \overline{x})^2}{L_{xx}} \tag{2.7.1} \]

上式为新值 \(x_0\) 的杠杆值,上式简写为:

\[\widehat{y}_0 \sim N \left( \beta_0 + \beta_1 x_0, h_{00} \sigma^2 \right) \tag{2.7.2} \]

预测值 \(\hat{y}_0\) 是先前独立观测到的随机变量 \(y_1\)\(y_2\)\(\cdots\)\(y_n\) 的线性组合,现在因变量新值 \(y_0\) 与之前的观测值 \(y_i\) 是独立的,所以 \(y_0\)\(\hat{y}_0\) 是独立的。此时有

\[\text{var} (y_0 - \hat{y}_0)= \text{var} (y_0 ) + \text{var} ( \hat{y}_0) = \sigma^2 +h_{00} \sigma^2 \]

又由

\[E(y_0) = E(\hat{y}_0) \Rightarrow E(y_0 - \hat{y}_0) = 0 \]

得到 \(y_0 - \hat{y}_0\) 的概率分布:

\[y_0 - \hat{y}_0 \sim N(0, (1+h_{00}) \sigma^2) \tag{2.7.3} \]

由上式给出的分布构造枢轴变量

\[t = \frac{y_0 - \hat{y}_0}{\sqrt{1+h_{00}} \, \hat{\sigma}} \tag{2.7.4} \]

类似于定理 \(2.6.1\) 的证明,我们可类似证明下式定理:

定理 2.7.1

\((2.7.4)\) 构造的枢轴变量服从自由度为 \(n-2\)\(t\) 分布。

给定显著性水平 \(\alpha\),得到

\[P \left( \left| \frac{y_0 - \hat{y}_0}{\sqrt{1+h_{00}} \, \hat{\sigma}} \right| \leqslant t_{\alpha / 2} (n-2) \right) = 1-\alpha \]

由此求得 \(y_0\) 的置信度为 \(1-\alpha\) 的置信区间为

\[\left( \hat{y}_0 - t_{\alpha / 2} (n-2) \sqrt{1+h_{00}} \, \hat{\sigma}, \, \hat{y}_0 + t_{\alpha / 2} (n-2) \sqrt{1+h_{00}} \, \hat{\sigma} \right) \tag{2.7.5} \]

当样本量 \(n\) 较大,\(|x_0 - \overline{x}|\) 较小时,\(h_{00}\) 接近 \(0\),此时 \(y_0\) 的置信度为 \(95%\) 的置信区间近似为:

\[\hat{y}_0 \pm 2 \hat{\sigma} \tag{2.7.6} \]

由式 \((2.7.5)\) 可以看到,对给定的显著性水平 \(\alpha\),样本量 \(n\) 越大,\(L_{xx}\) 越大,\(x_0\) 越靠近 \(\overline{x}\),则置信区间长度越短,表明预测的精度越高

为了提高预测精度,样本量 \(n\) 越大越好,采集数据 \(x_1\)\(x_2\)\(\cdots\)\(x_n\) 不能太集中。在进行预测时,所给定的 \(x_0\) 不能偏离 \(\overline{x}\) 太大,否则预测效果肯定不好;如果给定值 \(x_0=\overline{x}\),置信区间长度最短,此时的预测结果最好。

因此,如果在自变量观测值之外的范围做预测,精度会很差。在做预测时一定要看 \(x_0\)\(\overline{x}\) 相差多大。

(2) 因变量新值的平均值的区间预测

\((2.7.5)\) 给出的是因变量单个新值的置信区间,我们关心的另一种情况是因变量新值的平均值的区间估计。首先给出 \(E(y_0)\) 的一个良好的点估计,由式 \((2.3.4)\) 可仍将 \(\hat{y}_0\) 作为 \(E(y_0)\) 的估计。由于 \(E(y_0) = \beta_0 + \beta_1 x_0\) 是常数(\(\beta_0\)\(\beta_1\) 是模型未知常数)。

则有

\[E(\hat{y}_0 - E(y_0)) = 0, \quad \text{var} (\hat{y}_0 - E(y_0)) = \text{var} (\hat{y}_0) = h_{00} \sigma^2 \tag{2.7.7} \]

故得到 \(\hat{y}_0 - E(y_0)\) 的分布

\[\hat{y}_0 - E(y_0) \sim N(0, h_{00} \sigma^2 ) \tag{2.7.8} \]

可类似构造统计量

\[t =\frac{\hat{y}_0 - E(y_0)}{\sqrt{h_{00}}\, \hat{\sigma}} \sim t(n-2) \tag{2.7.9} \]

进而可以得到置信度为 \(1-\alpha\) 的置信区间为:

\[\left( \hat{y}_0 - t_{\alpha / 2} (n-2) \sqrt{h_{00}} \, \hat{\sigma}, \, \hat{y}_0 + t_{\alpha / 2} (n-2) \sqrt{h_{00}} \, \hat{\sigma} \right) \tag{2.7.10} \]

注,有时我们将因变量平均值的区间预测称为置信区间,把因变量单个值的区间预测称为预测区间

2.7.3 控制问题

控制问题相当于预测的反问题。预测与控制有密切的关系。比如在一些经济问题中,我们要求 \(y\) 在一定范围内取值,对经济增长率,我们可能会希望经济增长能保持在 \(8% \sim 12%\),用数学表达式描述,即要求

\[T_1 < y < T_2 \]

问题是如何控制 \(x\) 呢?在统计学中进一步讨论如何控制自变量 \(x\) 的值才能以 \(1-\alpha\) 的概率保证把目标值控制在 \(T_1 < y < T_2\),即对事先给定的数 \(\alpha\)\((0<\alpha<1)\)

\[P (T_1 < y < T_2) = 1 - \alpha \tag{2.7.11} \]

我们通常用近似的预测区间来确定 \(x\)。如果 \(\alpha = 0.05\),我们不妨使用根据式 \((2.7.6)\) 来做区间估计(使用其他区间估计也可以),可得不等式组

\[\hat{y} (x) - 2 \hat{\sigma} > T_1, \quad \hat{y} (x) + 2 \hat{\sigma} < T_2 \tag{2.7.12} \]

由此可求 \(x\) 的取值区间,由 \(\hat{y}(x) = \hat{\beta}_0 + \hat{\beta}_1 x\)

\(\hat{\beta}_1 > 0\)

\[\frac{T_1 + 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} < x < \frac{T_1 - 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} \tag{2.7.13} \]

\(\hat{\beta}_1 < 0\)

\[\frac{T_2 - 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} < x < \frac{T_1 + 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} \tag{2.7.14} \]

控制问题的应用要求因变量 \(y\) 与自变量 \(x\) 之间有因果关系,常用在工业生产的质量控制中。

posted on 2022-03-09 20:52  Black_x  阅读(1333)  评论(0)    收藏  举报