2.3 最小二乘估计的性质
2.3.1 线性
线性指估计量 \(\hat{\beta}_0\),\(\hat{\beta}_1\) 为随机变量 \(y_i\) 的样本的线性函数,由式 \((2.2.8)\) 我们可以得到等价的表达式:
\[\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \overline{x}) y_i}{\sum_{i=1}^n (x_i - \overline{x})^2} \tag{2.3.1}
\]
可以看出 \(\hat{\beta}_1\) 是 \(y_i\) 的线性组合,由此可进一步得出 \(\hat{\beta}_0\) 也可表示为 \(y_i\) 的线性组合。
因为 \(y_i\) 是随机变量,因此 \(\hat{\beta}_0\),\(\hat{\beta}_1\) 也可视为随机变量。
2.3.2 无偏性
由于 \(x_i\) 是非随机变量,\(E(\varepsilon_i) = 0\),我们由下式:
\[E(y_i) = E(\beta_0 + \beta_1 x_i + \varepsilon_i) = \beta_0 + \beta_1 x_i \tag{2.3.2}
\]
可以得到如下定理:
定理 2.3.1
\(\hat{\beta}_0\) 是 \(\beta_0\) 的无偏估计;\(\hat{\beta}_1\) 是 \(\beta_1\) 的无偏估计。
证明:由式 \((2.3.1)\) 可计算期望
\[\begin{align*}
E(\hat{\beta}_1)
& = \sum_{i=1}^n \frac{(x_i - \overline{x})}{\sum_{i=1}^n (x_i - \overline{x})^2} E(y_i) \\
& = \sum_{i=1}^n \frac{(x_i - \overline{x})}{\sum_{i=1}^n (x_i - \overline{x})^2} (\beta_0 + \beta_1 x_i) = \beta_1
\end{align*} \tag{2.3.3}
\]
同理可证 \(\hat{\beta}_0\) 是 \(\beta_0\) 的无偏估计。
进一步有:
\[\begin{align*}
E(\hat{y})
& = E(\hat{\beta}_0 + \hat{\beta}_1 x_i) \\
& = \beta_0 + \beta_1 x_i \\
& = E(y)
\end{align*} \tag{2.3.4}
\]
上式表明回归值 \(\hat{y}\) 是随机变量 \(y\) 的无偏估计,表明 \(\hat{y}\) 与随机变量 \(y\) 的期望值是相同的。
2.3.3 \(\beta_0\),\(\beta_1\)的方差
我们研究估计量的方差,由于 \(y_1\)、\(y_2\)、\(\cdots\)、\(y_n\) 是相互独立的,且 \(\text{var} (y_i)=\sigma^2\),得
\[\begin{align*}
\text{var} (\hat{\beta}_1)
& = \sum_{i=1}^n \left[ \frac{(x_i - \overline{x})}{\sum_{j=1}^n (x_j - \overline{x})^2} \right]^2 \text{var} (y_i) \\
& = \frac{\sigma^2}{\sum_{i=1}^n (x_i - \overline{x})^2}
\end{align*} \tag{2.3.5}
\]
我们再估计 \(\hat{\beta}_0\) 的方差:
\[\begin{align*}
\text{var}(\hat{\beta}_0)
& = \text{var}(\overline{y} - \hat{\beta}_1 \overline{x}) \\
& = \text{var}(\overline{y} - \frac{\sum_{i=1}^n (x_i - \overline{x}) y_i}{\sum_{i=1}^n (x_i - \overline{x})^2} \overline{x}) \\
& = \text{var}(\sum_{i=1}^n \left[ \frac{1}{n} - \frac{(x_i - \overline{x}) \overline{x}}{\sum_{i=1}^n (x_i - \overline{x})^2} \right] y_i) \\
& = \sum_{i=1}^n \left[ \frac{1}{n} - \frac{(x_i - \overline{x}) \overline{x}}{\sum_{i=1}^n (x_i - \overline{x})^2} \right]^2 \text{var}(y_i) \\
& = \sigma^2 \sum_{i=1}^n \left[ \frac{1}{n} - \frac{(x_i - \overline{x}) \overline{x}}{\sum_{i=1}^n (x_i - \overline{x})^2} \right]^2 \\
& = \sigma^2 \left[ \frac{1}{n} + \frac{(\overline{x})^2}{\sum_{i=1}^n (x_i - \overline{x})^2} \right]
\end{align*} \tag{2.3.6}
\]
从结果可以得出两点
总之可以看到,要想使 \(\beta_0\),\(\beta_1\) 的估计值 \(\hat{\beta}_0\),\(\hat{\beta}_1\) 更稳定,在收集数据时,应该考虑以下两点
2.3.4 正态性
由 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\) 的线性性质可以知道,\(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 都是 \(n\) 个独立的正态随机变量 \(y_i\) 的线性组合,因此 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 也服从正态分布。且由均值和方差知:
\[\hat{\beta}_0 \sim N(\beta_0, (\frac{1}{n} + \frac{(\overline{x})^2}{L_{xx}}) \sigma^2),
\quad \hat{\beta}_1 \sim N(\beta_1, \frac{\sigma^2}{L_{xx}}) \tag{2.3.7}
\]
可以计算 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 的协方差:
\[\begin{align*}
\text{cov} (\hat{\beta}_0, \hat{\beta}_1)
& = \text{cov} (\overline{y} - \hat{\beta}_1 \overline{x},\sum_{i=1}^n \frac{(x_i - \overline{x})}{\sum_{i=1}^n (x_i - \overline{x})^2} y_i) \\
& = \text{cov} (\sum_{i=1}^n \left[ \frac{1}{n} - \frac{(x_i - \overline{x}) \overline{x}}{\sum_{i=1}^n (x_i - \overline{x})^2} \right] y_i,\sum_{i=1}^n \frac{(x_i - \overline{x})}{\sum_{i=1}^n (x_i - \overline{x})^2} y_i) \\
& = \sum_{i=1}^n \left\{ \left[ \frac{1}{n} - \frac{(x_i - \overline{x}) \overline{x}}{\sum_{i=1}^n (x_i - \overline{x})^2} \right] \frac{(x_i - \overline{x})}{\sum_{i=1}^n (x_i - \overline{x})^2} \text{var}(y_i) \right\} \\
& = -\frac{\overline{x}}{L_{xx}} \sigma^2
\end{align*} \tag{2.3.8}
\]
式 \((2.3.8)\) 说明,在 \(\overline{x}=0\) 时,\(\hat{\beta}_0\) 与 \(\hat{\beta}_1\) 不相关,在正态假定条件下独立;在 \(\overline{x} \neq 0\) 时,\(\hat{\beta}_0\) 与 \(\hat{\beta}_1\) 相关,在正态假定条件下不独立。
在高斯—马尔可夫条件下可以证明 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 分别是 \(\beta_0\) 和 \(\beta_1\) 的最佳线性无偏估计,也称最小方差线性无偏估计。即指在所有 \(\beta_0\) 和 \(\beta_1\) 的线性无偏估计中,它们的方差最小。(证明见多元线性回归中的 \(\text{G - M}\) 定理)
固定 \(x_0\) 有
\[\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0 \tag{2.3.9}
\]
估计值 \(\hat{y}_0\) 的期望已经由式 \((2.3.4)\) 表出,下面计算其方差
\[\begin{align*}
\text{var} (\hat{y}_0)
& = \text{var} (\hat{\beta}_0 + \hat{\beta}_1 x_0) = \text{var} (\hat{\beta}_0) + \text{var} (\hat{\beta}_1 x_0) + 2 \, \text{cov} (\hat{\beta}_0, \hat{\beta}_1 x_0) \\
& = \sigma^2 \left[ \frac{1}{n} + \frac{(\overline{x})^2}{L_{xx}} \right] + x_0^2 \frac{\sigma^2}{L_{xx}} - 2 \frac{x_0 \overline{x}}{L_{xx}} \sigma^2 \\
& = \sigma^2 \left[ \frac{1}{n} + \frac{(\overline{x})^2}{L_{xx}} + \frac{x_0^2}{L_{xx}} - 2 \frac{x_0 \overline{x}}{L_{xx}} \right] \\
& = (\frac{1}{n} + \frac{(x_0 - \overline{x})^2}{L_{xx}}) \sigma^2
\end{align*}
\]
故估计值 \(\hat{y}_0\) 也是随机变量 \(y_1\)、\(y_2\)、\(\cdots\)、\(y_n\) 的线性组合,因此
\[\hat{y}_0 \sim N(\beta_0 + \beta_1 x_0, (\frac{1}{n} + \frac{(x_0 - \overline{x})^2}{L_{xx}}) \sigma^2) \tag{2.3.10}
\]
由此可见,\(\hat{y}_0\) 是随机变量 \(y_0\) 的无偏估计,且 \(\hat{y}_0\) 的方差随给定的 \(x_0\) 值与 \(\overline{x}\) 的距离 \(|x_0 - \overline{x}|\) 的增大而增大。即当给定的 \(x_0\) 与 \(x\) 的样本平均值 \(\overline{x}\) 相差较大时,\(\hat{y}_0\) 的估计波动就会增大。
因此实际应用回归方程进行控制和预测时,给定的 \(x_0\) 值不能偏离样本均值太多。