数学 - 回归分析 - 第 2 章一元线性回归 - 2.7 预测和控制 - Black_x

数学 - 回归分析 - 第 2 章一元线性回归 - 2.7 预测和控制

2.7 预测和控制

预测和控制是回归模型最重要的应用。

2.7.1 单值预测

单值预测就是用单个值作为因变量新值的预测值。比如我们研究某地区小麦亩产量 \(y\) 与施肥量 \(x\) 之间的关系，利用数据建立回归方程

\[y = \hat{\beta}_0 + \hat{\beta}_1 x \]

当给定 \(x\) 的值为 \(x_0\) 时，可以得到因变量新值 \(y_0 = \beta_0 + \beta_1 x_0 + \varepsilon_0\) 的单值预测：

\[\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0 \]

预测目标 \(y_0\) 是一个随机变量，根据式 \(E(\hat{y}_0)=E(y_0)=\beta_0+\beta_1 x_0\) 可知，预测值 \(\hat{y}_0\) 与目标值 \(y_0\) 有相同的均值，满足点估计的无偏性要求。

2.7.2 区间预测

以上的单值预测 \(\hat{y}_0\) 只是这个地块小麦产量的大概值。仅知道这一点意义并不大，对于预测问题，除了知道预测值外，还希望知道预测的精度，这就需要做区间预测。具体来说，就是对于给定的显著性水平 \(\alpha\)，找一个区间 \((T_1, T_2)\)，使对于某特定的 \(x_0\) 的实际值 \(y_0\) 以 \(1-\alpha\) 的概率被区间 \((T_1, T_2)\) 包含，公式表示为

\[P(T_1 < y_0 < T_2) =1-\alpha \]

对因变量的区间预测分为两种情况：一种是因变量新值的区间预测；另一种是因变量新值的平均值的区间预测。

(1) 因变量新值的区间预测

为给出新值 \(y_0\) 的置信区间，需要求出其估计值 \(\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0\) 的分布，由于 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 都是 \(y_1\)，\(y_2\)，\(\cdots\)，\(y_n\) 的线性组合，因而 \(\hat{y}_0\) 也是 \(y_1\)，\(y_2\)，\(\cdots\)，\(y_n\) 的线性组合，在正态假定下 \(\hat{y}_0\) 服从正态分布。在之前期望和方差的计算中，由式 \((2.3.10)\) 可以得到预测值 \(\hat{y}_0\) 的分布

\[\widehat{y}_0 \sim N \left( \beta_0 + \beta_1 x_0, \left( \frac{1}{n} + \frac{(x_0 - \overline{x})^2}{L_{xx}} \right) \sigma^2 \right) \]

我们记一个新的杠杆值

\[h_{00} = \frac{1}{n} + \frac{(x_0 - \overline{x})^2}{L_{xx}} \tag{2.7.1} \]

上式为新值 \(x_0\) 的杠杆值，上式简写为：

\[\widehat{y}_0 \sim N \left( \beta_0 + \beta_1 x_0, h_{00} \sigma^2 \right) \tag{2.7.2} \]

预测值 \(\hat{y}_0\) 是先前独立观测到的随机变量 \(y_1\)，\(y_2\)，\(\cdots\)，\(y_n\) 的线性组合，现在因变量新值 \(y_0\) 与之前的观测值 \(y_i\) 是独立的，所以 \(y_0\) 与 \(\hat{y}_0\) 是独立的。此时有

\[\text{var} (y_0 - \hat{y}_0)= \text{var} (y_0 ) + \text{var} ( \hat{y}_0) = \sigma^2 +h_{00} \sigma^2 \]

又由

\[E(y_0) = E(\hat{y}_0) \Rightarrow E(y_0 - \hat{y}_0) = 0 \]

得到 \(y_0 - \hat{y}_0\) 的概率分布：

\[y_0 - \hat{y}_0 \sim N(0, (1+h_{00}) \sigma^2) \tag{2.7.3} \]

由上式给出的分布构造枢轴变量

\[t = \frac{y_0 - \hat{y}_0}{\sqrt{1+h_{00}} \, \hat{\sigma}} \tag{2.7.4} \]

类似于定理 \(2.6.1\) 的证明，我们可类似证明下式定理：

定理 2.7.1

式 \((2.7.4)\) 构造的枢轴变量服从自由度为 \(n-2\) 的 \(t\) 分布。

给定显著性水平 \(\alpha\)，得到

\[P \left( \left| \frac{y_0 - \hat{y}_0}{\sqrt{1+h_{00}} \, \hat{\sigma}} \right| \leqslant t_{\alpha / 2} (n-2) \right) = 1-\alpha \]

由此求得 \(y_0\) 的置信度为 \(1-\alpha\) 的置信区间为

\[\left( \hat{y}_0 - t_{\alpha / 2} (n-2) \sqrt{1+h_{00}} \, \hat{\sigma}, \, \hat{y}_0 + t_{\alpha / 2} (n-2) \sqrt{1+h_{00}} \, \hat{\sigma} \right) \tag{2.7.5} \]

当样本量 \(n\) 较大，\(|x_0 - \overline{x}|\) 较小时，\(h_{00}\) 接近 \(0\)，此时 \(y_0\) 的置信度为 \(95%\) 的置信区间近似为：

\[\hat{y}_0 \pm 2 \hat{\sigma} \tag{2.7.6} \]

由式 \((2.7.5)\) 可以看到，对给定的显著性水平 \(\alpha\)，样本量 \(n\) 越大，\(L_{xx}\) 越大，\(x_0\) 越靠近 \(\overline{x}\)，则置信区间长度越短，表明预测的精度越高。

为了提高预测精度，样本量 \(n\) 越大越好，采集数据 \(x_1\)，\(x_2\)，\(\cdots\)，\(x_n\) 不能太集中。在进行预测时，所给定的 \(x_0\) 不能偏离 \(\overline{x}\) 太大，否则预测效果肯定不好；如果给定值 \(x_0=\overline{x}\)，置信区间长度最短，此时的预测结果最好。

因此，如果在自变量观测值之外的范围做预测，精度会很差。在做预测时一定要看 \(x_0\) 与 \(\overline{x}\) 相差多大。

(2) 因变量新值的平均值的区间预测

式 \((2.7.5)\) 给出的是因变量单个新值的置信区间，我们关心的另一种情况是因变量新值的平均值的区间估计。首先给出 \(E(y_0)\) 的一个良好的点估计，由式 \((2.3.4)\) 可仍将 \(\hat{y}_0\) 作为 \(E(y_0)\) 的估计。由于 \(E(y_0) = \beta_0 + \beta_1 x_0\) 是常数（\(\beta_0\) 和 \(\beta_1\) 是模型未知常数）。

则有

\[E(\hat{y}_0 - E(y_0)) = 0, \quad \text{var} (\hat{y}_0 - E(y_0)) = \text{var} (\hat{y}_0) = h_{00} \sigma^2 \tag{2.7.7} \]

故得到 \(\hat{y}_0 - E(y_0)\) 的分布

\[\hat{y}_0 - E(y_0) \sim N(0, h_{00} \sigma^2 ) \tag{2.7.8} \]

可类似构造统计量

\[t =\frac{\hat{y}_0 - E(y_0)}{\sqrt{h_{00}}\, \hat{\sigma}} \sim t(n-2) \tag{2.7.9} \]

进而可以得到置信度为 \(1-\alpha\) 的置信区间为：

\[\left( \hat{y}_0 - t_{\alpha / 2} (n-2) \sqrt{h_{00}} \, \hat{\sigma}, \, \hat{y}_0 + t_{\alpha / 2} (n-2) \sqrt{h_{00}} \, \hat{\sigma} \right) \tag{2.7.10} \]

注，有时我们将因变量平均值的区间预测称为置信区间，把因变量单个值的区间预测称为预测区间。

2.7.3 控制问题

控制问题相当于预测的反问题。预测与控制有密切的关系。比如在一些经济问题中，我们要求 \(y\) 在一定范围内取值，对经济增长率，我们可能会希望经济增长能保持在 \(8% \sim 12%\)，用数学表达式描述，即要求

\[T_1 < y < T_2 \]

问题是如何控制 \(x\) 呢？在统计学中进一步讨论如何控制自变量 \(x\) 的值才能以 \(1-\alpha\) 的概率保证把目标值控制在 \(T_1 < y < T_2\)，即对事先给定的数 \(\alpha\)，\((0<\alpha<1)\)

\[P (T_1 < y < T_2) = 1 - \alpha \tag{2.7.11} \]

我们通常用近似的预测区间来确定 \(x\)。如果 \(\alpha = 0.05\)，我们不妨使用根据式 \((2.7.6)\) 来做区间估计（使用其他区间估计也可以），可得不等式组

\[\hat{y} (x) - 2 \hat{\sigma} > T_1, \quad \hat{y} (x) + 2 \hat{\sigma} < T_2 \tag{2.7.12} \]

由此可求 \(x\) 的取值区间，由 \(\hat{y}(x) = \hat{\beta}_0 + \hat{\beta}_1 x\) 得

当 \(\hat{\beta}_1 > 0\) 时

\[\frac{T_1 + 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} < x < \frac{T_1 - 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} \tag{2.7.13} \]

当 \(\hat{\beta}_1 < 0\) 时

\[\frac{T_2 - 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} < x < \frac{T_1 + 2 \hat{\sigma} - \hat{\beta}_0}{\hat{\beta}_1} \tag{2.7.14} \]

控制问题的应用要求因变量 \(y\) 与自变量 \(x\) 之间有因果关系，常用在工业生产的质量控制中。

posted on 2022-03-09 20:52 Black_x 阅读(1333) 评论(0) 收藏举报

刷新页面返回顶部

Black_x