线性统计模型 2.25

在诸多例子中，$Y$ 通常被称作因变量或响应变量，$X$ 被称为自变量或预报变量。$Y$ 的值由两部分构成：一部分是由 $X$ 决定的部分，为 $X$ 的函数 $f(X)$ ；另一部分是由其他未考虑因素（含随机因素）产生影响的随机误差 $e$ 。由此得到模型

\[Y = f(X)+e \]

且作为随机误差的 $e$ ，其均值 $E(e)=0$ ，$E(\cdot)$ 表示随机变量的均值。
特别,当$f(X)$是线性函数$f(X)=\beta_0 + \beta_1X$时,我们得到

\[Y = \beta_0 + \beta_1X + e \]

在这个模型中,若忽略掉$e$,它就是一个通常的直线方程. 因此,我们称之为线性回归模型或线性回归方程.
常数项$\beta_0$是直线的截距,$\beta_1$是直线的斜率,也称为回归系数.在实际应用中,$\beta_0$和$\beta_1$皆是未知的,需要通过观测数据来估计.
假设自变量$X$分别取值为$x_1,x_2,\cdots,x_n$时,因变量$Y$对应的观测值分别为$y_1,y_2,\cdots,y_n$.于是我们有$n$组观测值$(x_i,y_i)$,$i = 1,\cdots,n$.如果$Y$与$X$有回归关系,则这些$(x_i,y_i)$应该满足

\[y_i = \beta_0 + \beta_1x_i + e_i, \\ i = 1,\cdots,n \]

这里$e_i$为对应的随机误差. 应用适当的统计方法, 可以得到$\beta_0$和$\beta_1$的估计值$\hat{\beta}_0,\hat{\beta}_1$,将它们代入 ,再略去误差项$e_i$得到

\[Y = \hat{\beta}_0 + \hat{\beta}_1X \]

在实际问题中，影响因变量的主要因素通常较多，需考虑含多个自变量的回归问题。假设因变量$Y$和$p - 1$个自变量$X_1,\cdots,X_{p - 1}$的关系为$Y = \beta_0 + \beta_1X_1 + \cdots + \beta_{p - 1}X_{p - 1} + e$，此为多元线性回归模型，其中$\beta_0$是常数项，$\beta_1,\cdots,\beta_{p - 1}$是回归系数，$e$是随机误差。
假设对$Y,X_1,\cdots,X_{p - 1}$进行$n$次观测，得到$n$组观测值$x_{i1},\cdots,x_{i,p - 1},y_{i}$ ，$i = 1,\cdots,n$ ，它们满足一定关系式
在实际问题中，影响因变量的主要因素往往很多，这就需要考虑含多个自变量的回归问题.假设因变量$Y$和$p - 1$个自变量$X_1,\cdots,X_{p - 1}$之间有如下关系：

\[Y = \beta_0 + \beta_1X_1 + \cdots + \beta_{p - 1}X_{p - 1} + e \]

这是多元线性回归模型，其中$\beta_0$为常数项，$\beta_1,\cdots,\beta_{p - 1}$为回归系数，$e$为随机误差.
假设我们对$Y,X_1,\cdots,X_{p - 1}$进行了$n$次观测，得到$n$组观测值

\[x_{i1},\cdots,x_{i,p - 1},y_{i}$， $i = 1,\cdots,n \]

它们满足关系式

\[y_{i} = \beta_0 + x_{i1}\beta_1 + \cdots + x_{i,p - 1}\beta_{p - 1} + e_{i}$， $i = 1,\cdots,n \]

这里$e_{i}$为对应的随机误差.引进矩阵记号

\[\boldsymbol{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} \]

\[\boldsymbol{X} = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1,p - 1} \\ 1 & x_{21} & \cdots & x_{2,p - 1} \\ \vdots & \vdots & & \vdots \\ 1 & x_{n1} & \cdots & x_{n,p - 1} \end{pmatrix} \]

\[\boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_{p - 1} \end{pmatrix} \]

\[\boldsymbol{e} = \begin{pmatrix} e_1 \\ e_2 \\ \vdots \\ e_n \end{pmatrix} \]

(1.1.10)就写为如下简洁形式：

\[\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{e} \]

这里$\boldsymbol{y}$为$n \times 1$的观测向量，$\boldsymbol{X}$为$n \times p$已知矩阵，通常称为设计矩阵.对于线性回归模型，术语“设计矩阵”中的“设计”两字并不蕴含任何真正设计的含义，只是习惯用法而已.近年来，有一些学者建议改用“模型矩阵”.但就目前来讲，沿用“设计矩阵”者居多.$\boldsymbol{\beta}$为未知参数向量，其中$\beta_0$称为常数项，$\beta_1,\cdots,\beta_{p - 1}$为回归系数.而$\boldsymbol{e}$为$n \times 1$随机误差向量，关于其最常用的假设是：
(a) 误差项均值为零，即$E(e_{i}) = 0$，$i = 1,\cdots,n$.
(b) 误差项具有等方差，即

\[\text{Var}(e_{i}) = \sigma^{2} \\i = 1,\cdots,n \]

\[\text{Cov}(e_{i},e_{j}) = 0 \\i \neq j \quad j = 1,\cdots,n \]

通常称以上三条为Gauss - Markov假设.模型(1.1.11)和假设(1.1.12)构成了我们以后要讨论的最基本的线性回归模型.
在Gauss - Markov假设中，第一条表明误差项不包含任何系统的趋势，因而观测值$y_{i}$的均值

\[E(y_{i}) = \beta_0 + x_{i1}\beta_1 + \cdots + x_{i,p - 1}\beta_{p - 1}$， $i = 1,\cdots,n \]

这就是说，观测值$y_{i}$大于或小于其均值$E(y_{i})$的波动完全是一种随机性的，这种随机性来自误差项$e_{i}$.我们知道，一个随机变量的方差刻画了该随机变量取值散布程度的大小，因此假设(b)要求$e_{i}$等方差，也就是要求不同次的观测$y_{i}$在其均值附近波动程度是一样的.这个要求有时显得严厉一些.在一些情况下，我们不得不放松为$\text{Var}(e_{i}) = \sigma_{i}^{2}$，$i = 1,\cdots,n$，这种情况将在§7.2讨论.第三条假设等价于要求不同次的观测是不相关的.在实际应用中这个假设比较容易满足.但是在一些实际问题中，误差往往是相关的.这时估计问题比较复杂，本书中不少地方要讨论这种情形.
假设

\[\hat{\boldsymbol{\beta}} = (\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_{p - 1})' \]

为$\boldsymbol{\beta}$的一种估计，将它们代入(1.1.9)，并略去其中的误差项$e$，得到经验回归方程

\[Y = \hat{\beta}_0 + \hat{\beta}_1X_1 + \cdots + \hat{\beta}_{p - 1}X_{p - 1} \]

和单个回归自变量的情形一样，这个经验回归方程是否真正描述了因变量$Y$与自变量$X_1,\cdots,X_{p - 1}$之间的关系，还需要适当的统计检验.
上面我们讨论的都是线性回归模型.有一些模型虽然是非线性的，但经过适当变换，可以化为线性模型.
例1.1.3 在经济学中，著名的Cobb - Douglas生产函数为
$Q_{t} = aL_{t}^{b}K_{t}^{c}$
这里$Q_{t},L_{t}$和$K_{t}$分别为$t$年的产值、劳力投入量和资金投入量，$a,b$和$c$为参数.在上式两边取自然对数
$\ln(Q_{t}) = \ln a + b\ln(L_{t}) + c\ln(K_{t})$.
若令
$y_{t} = \ln(Q_{t})$，$x_{t1} = \ln(L_{t})$，$x_{t2} = \ln(K_{t})$，
$\beta_0 = \ln a$，$\beta_1 = b$，$\beta_2 = c$，
则再加上误差项，便得到线性关系
$y_{t} = \beta_0 + \beta_1x_{t1} + \beta_2x_{t2} + e_{t}\\t = 1,\cdots,T$. (1.1.15)
因此我们把非线性模型(1.1.14)化成了线性模型.
例1.1.4 多项式回归模型
假设因变量$Y$和自变量$X$之间具有关系

\[Y = \beta_0 + \beta_1X + \beta_2X^{2} + \beta_3X^{3} + e \]

这是三次多项式回归模型.若令$X_1 = X$，$X_2 = X^{2}$，$X_3 = X^{3}$，则有

\[Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + e \]

这就是一个线性模型.从这里我们看到，线性模型(1.1.9)的基本特征是：它关于未知参数

\[\beta_0,\beta_1,\cdots,\beta_{p - 1} \]

是线性的.

在结束这一节之前，我们解释一下“回归”一词的由来.“回归”英文为“regression”，是由英国著名生物学家兼统计学家高尔顿(Galton)在研究人类遗传问题时提出的.为了研究父代与子代身高的关系，高尔顿收集了1 078对父亲及其一子的身高数据.用$X$表示父亲身高，$Y$表示儿子身高，单位为英寸(1英寸为2.54cm).将这1 078对$(x_{i},y_{i})$标在直角坐标纸上，他发现散点图大致呈直线状.也就是说，总的趋势是父亲的身高$X$增加时，儿子的身高$Y$也倾向于增加，这与我们的常识是一致的.但是，高尔顿对数据的深入分析，发现了一个很有趣的现象——回归效应.
因为这1 078个$x_{i}$值的算术平均值$\bar{x} = 68$英寸，而1 078个$y_{i}$值的平均值为$\bar{y} = 69$英寸，这就是说，子代身高平均增加了1英寸.人们自然会这样推想，若父亲身高为$x$，他儿子的平均身高大致应为$x + 1$，但高尔顿的仔细研究所得

posted @ 2025-02-25 17:37 redufa 阅读(87) 评论(0) 收藏举报

刷新页面返回顶部