2.2 回归参数 \(\beta_0\) 和 \(\beta_1\) 的估计
2.2.1 普通最小二乘估计
(1) 普通最小二乘估计形式
对每一个样本观测值 \((x_i,y_i)\),最小二乘法考虑观测值 \(y_i\) 与其回归值 \(E(y_i)=\beta_0 + \beta_1 x_i\) 的离差越小越好,综合考虑 \(n\) 个离差值,定义离差平方和为:
\[\begin{align*}
Q(\beta_0,\beta_1)
& = \sum_{i=1}^{n} [ y_i - E(y_i) ]^2 \\
& = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2
\end{align*} \tag{2.2.1}
\]
普通最小二乘估计,要求寻找参数 \(\beta_0\),\(\beta_1\) 的估计值 \(\hat{\beta}_0\),\(\hat{\beta}_1\),使式 \((2.2.1)\) 定义的离差平方和达到最小。
\[\begin{align*}
Q(\hat{\beta}_0,\hat{\beta}_1)
& = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \\
& = \min_{\beta_0\, , \, \beta_1} \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2
\end{align*} \tag{2.2.2}
\]
依照式 \((2.2.2)\) 求出的 \(\hat{\beta}_0\),\(\hat{\beta}_1\) 就称为回归参数 \(\beta_0\),\(\beta_1\) 的最小二乘估计。
定义 \(y_i\) 的回归拟合值为式 \((2.2.3)\)。
\[\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \tag{2.2.3}
\]
\(y_i\) 的残差为式 \((2.2.4)\)。
\[e_i = y_i - \hat{y}_i \tag{2.2.4}
\]
定义残差平方和为
\[\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \tag{2.2.5}
\]
式 \((2.2.5)\) 从整体上刻画了 \(n\) 个样本观测点 \((x_i,y_i)\) 到回归直线 \((2.2.3)\) 的距离长短。
![]()
(2) 普通最小二乘估计求解
从式 \((2.2.2)\) 中求解 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\),由于 \(Q\) 是关于 \(\beta_0\) 和 \(\beta_1\) 的非负二次函数,因此最小值总是存在。由费马引理,\(\beta_0\),\(\beta_1\) 应满足下列方程:
\[\left\{
\begin{aligned}
\frac{\partial Q}{\partial \beta_0} \Bigg|_{\beta_0 = \hat{\beta}_0}
& = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \\
\frac{\partial Q}{\partial \beta_1} \Bigg|_{\beta_1 = \hat{\beta}_1}
& = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) x_i = 0 \\
\end{aligned} \tag{2.2.6}
\right.
\]
得正规方程组
\[\left\{
\begin{aligned}
n \hat{\beta}_0 + \left( \sum_{i=1}^n x_i \right) \hat{\beta}_1 & = \sum_{i=1}^n y_i \\
\left( \sum_{i=1}^n x_i \right) \hat{\beta}_0 + \left( \sum_{i=1}^n x_i^2 \right) \hat{\beta}_1 & = \sum_{i=1}^n x_i y_i
\end{aligned} \tag{2.2.7}
\right.
\]
简单标记
\[\overline{x} = \frac{1}{n} \sum_{i=1}^n x_i, \quad \overline{y} = \frac{1}{n} \sum_{i=1}^n y_i
\]
求解正规方程组得 \(\beta_0\)、\(\beta_1\) 的最小二乘估计:
\[\left\{
\begin{aligned}
\hat{\beta}_0 = & \overline{y} - \hat{\beta}_1 \overline{x}\\ \\
\hat{\beta}_1 = & \frac{\sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^n (x_i - \overline{x})^2}
\end{aligned} \tag{2.2.8}
\right.
\]
简单标记
\[\begin{align*}
L_{xx} & = \sum_{i=1}^n (x_i - \overline{x})^2 = \sum_{i=1}^n x_i^2 - n (\overline{x})^2 \tag{2.2.9} \\
L_{xy} & = \sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y}) = \sum_{i=1}^n x_i y_i - n \overline{x} \overline{y} \tag{2.2.10}
\end{align*}
\]
式 \((2.2.8)\) 可简写为:
\[\left\{
\begin{aligned}
\hat{\beta}_0 = & \overline{y} - \hat{\beta}_1 \overline{x}\\
\hat{\beta}_1 = & L_{xy} / L_{xx}
\end{aligned} \tag{2.2.11}
\right.
\]
由式 \((2.18)\) 可以得到残差的一个重要性质:残差平均值为 \(0\),残差以自变量 \(x\) 加权的平均值为 \(0\)。
\[\left\{
\begin{aligned}
& \sum_{i=1}^n e_i = 0\\
& \sum_{i=1}^n x_i e_i = 0
\end{aligned} \tag{2.2.12}
\right.
\]
2.2.2 最大似然估计
(1) 最大似然估计简介
给定一个总体 \(X\),设分布密度函数为 \(\{ f(x;\theta) \}\),其中 \(\theta \in \Theta\)。假设总体 \(X\) 的一个独立同分布样本为 \(x_1\),\(x_2\),\(\cdots\),\(x_n\),则似然函数为:
\[L(\theta; x_1, x_2, \cdots, x_n) = \prod_{i=1}^{n} f(x_i;\theta) \tag{2.2.13}
\]
最大似然估计准则要求:在一切 \(\theta\) 中选取使随机样本 \((X_1,X_2,\cdots,X_n)\) 落在点 \((x_1,x_2,\cdots,x_n)\) 的概率最大的 \(\widehat{\theta}\) 为未知参数 \(\theta\) 真值的估计值,数学表示如下:
\[L(\widehat{\theta};x_1,x_2,\cdots,x_n) = \max_{\theta} L(\theta;x_1, x_2, \cdots, x_n) \tag{2.2.14}
\]
似然函数的概念并不局限于独立同分布的样本,只要样本的联合密度形式已知,就可以应用最大似然估计。
(2) 一元线性回归模型参数的最大似然估计
得到样本观测值 \((x_i,y_i)\),其中,\(x_i\) 为非随机变量,\(y_i\) 为随机变量。假设 \(\varepsilon \sim N(0, \sigma^2)\),则 \(y_i\) 服从正态分布
\[y_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2) \tag{2.2.15}
\]
于是 \(y_1,y_2,\cdots,y_n\)(注意 \(y_i\) 不是独立同分布的)的似然函数为:
\[\begin{align*}
L(\beta_0, \beta_1, \sigma^2;y_1, y_2, \cdots, y_n)
& = \prod_{i=1}^{n} f_i(y_i;\bm{\theta}) \\
& = (2 \pi \sigma^2)^{-n/2} \exp \{ -\frac{1}{2 \sigma^2} \sum_{i=1}^{n}\left[ y_i - (\beta_0 + \beta_1 x_i) \right]^2 \}
\end{align*} \tag{2.2.16}
\]
取对数似然函数为:
\[\ln (L) = -\frac{n}{2} \ln (2 \pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n \left[ y_i - (\beta_0 + \beta_1 x_i)\right]^2 \tag{2.2.17}
\]
为求式 \((2.2.16)\) 的最大值,等价于对 \(\sum_{i=1}^n \left[ y_i - (\beta_0 + \beta_1 x_i)\right]^2\) 求最小值,而这又与最小二乘原理完全相同。因而 \(\beta_0\),\(\beta_1\)的最大似然估计就是式 \((2.2.8)\) 的最小二乘估计。
由最大似然估计可以得到 \(\sigma^2\) 的估计值为:
\[\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n \left[ y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)\right]^2 \tag{2.2.18}
\]
上式是 \(\sigma^2\) 的有偏估计,实际应用中,可用无偏估计量作为 \(\sigma^2\) 的估计量
\[\hat{\sigma}^2 = \frac{1}{n - 2} \sum_{i=1}^n \left[ y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)\right]^2 \tag{2.2.19}
\]
我们应该注意,最大似然估计是在 \(\varepsilon_i \sim N(0, \sigma^2)\) 的正态分布假设下求得的,而最小二乘估计对分布假设没有要求。此外,\(y_i\) 虽然不是独立同分布的,但按最大似然原则仍可以求得参数的估计值(根本原因是知道样本的联合密度)。