数学 - 回归分析 - 第 2 章 一元线性回归 - 2.2 回归参数的估计

2.2 回归参数 \(\beta_0\)\(\beta_1\) 的估计

2.2.1 普通最小二乘估计

(1) 普通最小二乘估计形式

对每一个样本观测值 \((x_i,y_i)\),最小二乘法考虑观测值 \(y_i\) 与其回归值 \(E(y_i)=\beta_0 + \beta_1 x_i\) 的离差越小越好,综合考虑 \(n\) 个离差值,定义离差平方和为:

\[\begin{align*} Q(\beta_0,\beta_1) & = \sum_{i=1}^{n} [ y_i - E(y_i) ]^2 \\ & = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 \end{align*} \tag{2.2.1} \]

普通最小二乘估计,要求寻找参数 \(\beta_0\)\(\beta_1\) 的估计值 \(\hat{\beta}_0\)\(\hat{\beta}_1\),使式 \((2.2.1)\) 定义的离差平方和达到最小。

\[\begin{align*} Q(\hat{\beta}_0,\hat{\beta}_1) & = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \\ & = \min_{\beta_0\, , \, \beta_1} \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 \end{align*} \tag{2.2.2} \]

依照式 \((2.2.2)\) 求出的 \(\hat{\beta}_0\)\(\hat{\beta}_1\) 就称为回归参数 \(\beta_0\)\(\beta_1\) 的最小二乘估计。

定义 \(y_i\)回归拟合值为式 \((2.2.3)\)

\[\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i \tag{2.2.3} \]

\(y_i\)残差为式 \((2.2.4)\)

\[e_i = y_i - \hat{y}_i \tag{2.2.4} \]

定义残差平方和

\[\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2 \tag{2.2.5} \]

\((2.2.5)\) 从整体上刻画了 \(n\) 个样本观测点 \((x_i,y_i)\) 到回归直线 \((2.2.3)\) 的距离长短。

(2) 普通最小二乘估计求解

从式 \((2.2.2)\) 中求解 \(\hat{\beta}_0\)\(\hat{\beta}_1\),由于 \(Q\) 是关于 \(\beta_0\)\(\beta_1\) 的非负二次函数,因此最小值总是存在。由费马引理,\(\beta_0\)\(\beta_1\) 应满足下列方程:

\[\left\{ \begin{aligned} \frac{\partial Q}{\partial \beta_0} \Bigg|_{\beta_0 = \hat{\beta}_0} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) = 0 \\ \frac{\partial Q}{\partial \beta_1} \Bigg|_{\beta_1 = \hat{\beta}_1} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i) x_i = 0 \\ \end{aligned} \tag{2.2.6} \right. \]

正规方程组

\[\left\{ \begin{aligned} n \hat{\beta}_0 + \left( \sum_{i=1}^n x_i \right) \hat{\beta}_1 & = \sum_{i=1}^n y_i \\ \left( \sum_{i=1}^n x_i \right) \hat{\beta}_0 + \left( \sum_{i=1}^n x_i^2 \right) \hat{\beta}_1 & = \sum_{i=1}^n x_i y_i \end{aligned} \tag{2.2.7} \right. \]

简单标记

\[\overline{x} = \frac{1}{n} \sum_{i=1}^n x_i, \quad \overline{y} = \frac{1}{n} \sum_{i=1}^n y_i \]

求解正规方程组得 \(\beta_0\)\(\beta_1\) 的最小二乘估计:

\[\left\{ \begin{aligned} \hat{\beta}_0 = & \overline{y} - \hat{\beta}_1 \overline{x}\\ \\ \hat{\beta}_1 = & \frac{\sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^n (x_i - \overline{x})^2} \end{aligned} \tag{2.2.8} \right. \]

简单标记

\[\begin{align*} L_{xx} & = \sum_{i=1}^n (x_i - \overline{x})^2 = \sum_{i=1}^n x_i^2 - n (\overline{x})^2 \tag{2.2.9} \\ L_{xy} & = \sum_{i=1}^n (x_i - \overline{x})(y_i - \overline{y}) = \sum_{i=1}^n x_i y_i - n \overline{x} \overline{y} \tag{2.2.10} \end{align*} \]

\((2.2.8)\) 可简写为:

\[\left\{ \begin{aligned} \hat{\beta}_0 = & \overline{y} - \hat{\beta}_1 \overline{x}\\ \hat{\beta}_1 = & L_{xy} / L_{xx} \end{aligned} \tag{2.2.11} \right. \]

由式 \((2.18)\) 可以得到残差的一个重要性质:残差平均值为 \(0\),残差以自变量 \(x\) 加权的平均值为 \(0\)

\[\left\{ \begin{aligned} & \sum_{i=1}^n e_i = 0\\ & \sum_{i=1}^n x_i e_i = 0 \end{aligned} \tag{2.2.12} \right. \]

2.2.2 最大似然估计

(1) 最大似然估计简介

给定一个总体 \(X\),设分布密度函数为 \(\{ f(x;\theta) \}\),其中 \(\theta \in \Theta\)。假设总体 \(X\) 的一个独立同分布样本为 \(x_1\)\(x_2\)\(\cdots\)\(x_n\),则似然函数为:

\[L(\theta; x_1, x_2, \cdots, x_n) = \prod_{i=1}^{n} f(x_i;\theta) \tag{2.2.13} \]

最大似然估计准则要求:在一切 \(\theta\) 中选取使随机样本 \((X_1,X_2,\cdots,X_n)\) 落在点 \((x_1,x_2,\cdots,x_n)\) 的概率最大的 \(\widehat{\theta}\) 为未知参数 \(\theta\) 真值的估计值,数学表示如下:

\[L(\widehat{\theta};x_1,x_2,\cdots,x_n) = \max_{\theta} L(\theta;x_1, x_2, \cdots, x_n) \tag{2.2.14} \]

似然函数的概念并不局限于独立同分布的样本,只要样本的联合密度形式已知,就可以应用最大似然估计

(2) 一元线性回归模型参数的最大似然估计

得到样本观测值 \((x_i,y_i)\),其中,\(x_i\) 为非随机变量,\(y_i\) 为随机变量。假设 \(\varepsilon \sim N(0, \sigma^2)\),则 \(y_i\) 服从正态分布

\[y_i \sim N(\beta_0 + \beta_1 x_i, \sigma^2) \tag{2.2.15} \]

于是 \(y_1,y_2,\cdots,y_n\)(注意 \(y_i\) 不是独立同分布的)的似然函数为:

\[\begin{align*} L(\beta_0, \beta_1, \sigma^2;y_1, y_2, \cdots, y_n) & = \prod_{i=1}^{n} f_i(y_i;\bm{\theta}) \\ & = (2 \pi \sigma^2)^{-n/2} \exp \{ -\frac{1}{2 \sigma^2} \sum_{i=1}^{n}\left[ y_i - (\beta_0 + \beta_1 x_i) \right]^2 \} \end{align*} \tag{2.2.16} \]

取对数似然函数为:

\[\ln (L) = -\frac{n}{2} \ln (2 \pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n \left[ y_i - (\beta_0 + \beta_1 x_i)\right]^2 \tag{2.2.17} \]

为求式 \((2.2.16)\) 的最大值,等价于对 \(\sum_{i=1}^n \left[ y_i - (\beta_0 + \beta_1 x_i)\right]^2\) 求最小值,而这又与最小二乘原理完全相同。因而 \(\beta_0\)\(\beta_1\)的最大似然估计就是式 \((2.2.8)\) 的最小二乘估计。

由最大似然估计可以得到 \(\sigma^2\) 的估计值为:

\[\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n \left[ y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)\right]^2 \tag{2.2.18} \]

上式是 \(\sigma^2\) 的有偏估计,实际应用中,可用无偏估计量作为 \(\sigma^2\) 的估计量

\[\hat{\sigma}^2 = \frac{1}{n - 2} \sum_{i=1}^n \left[ y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)\right]^2 \tag{2.2.19} \]

我们应该注意,最大似然估计是在 \(\varepsilon_i \sim N(0, \sigma^2)\) 的正态分布假设下求得的,而最小二乘估计对分布假设没有要求。此外,\(y_i\) 虽然不是独立同分布的,但按最大似然原则仍可以求得参数的估计值(根本原因是知道样本的联合密度)。

posted on 2022-03-15 15:46  Black_x  阅读(714)  评论(0)    收藏  举报