简单线性模型

2.1 简单线性回归模型

本章探讨简单线性回归模型,该模型含一个回归变量\(x\),回归变量\(x\)与响应变量\(y\)呈直线关系,模型表达式为

\[y = \beta_0+\beta_1x+\varepsilon \]

其中,截距\(\beta_0\)与斜率\(\beta_1\)是未知常数,\(\varepsilon\)为随机误差项,假设误差项均值为0,方差\(\sigma^2\)未知,且误差不相关。
通常认为回归变量\(x\)由数据分析师控制且测量误差可忽略,响应变量\(y\)为随机变量,对于每个\(x\)的可能值,存在\(y\)的概率分布,
其均值为

\[E(y|x)=\beta_0+\beta_1x \]

方差为

\[Var(y|x)=Var(\beta_0+\beta_1x + \varepsilon)=\sigma^2 \]

因此,\(y\)的均值是\(x\)的线性函数,然而\(y\)的方差不依赖\(x\)的取值。进一步来说,因为误差是不相关的,所以响应变量也是不相关的。
参数\(\beta_0\)\(\beta_1\)通常称为回归系数,这两个系数都有简单而通常有用的解释。斜率\(\beta_1\)是由一单位\(x\)的变化所产生的\(y\)均值分布的变化率。如果数据中\(x\)的范围包括\(x = 0\),那么截距\(\beta_0\)\(x = 0\)时响应变量\(y\)均值的分布;如果\(x\)的范围不包括\(0\),那么\(\beta_0\)没有实际含义。

2.2 回归参数的最小二乘估计

参数\(\beta_0\)\(\beta_1\)是未知的,必须使用样本数据进行估计。假设有几对数据,比如说\((y_1, x_1)\)\((y_2, x_2)\)\(\cdots\)\((y_n, x_n)\)。正如第1章所提到的,这些数据可能产生于专门进行数据收集的可控试验设计中,可能产生于观测性研究中,也可能产生于已经存在的历史记录中(对回顾性研究而言)。

2.2.1 \(\beta_0\)\(\beta_1\)的估计

使用最小二乘法来估计\(\beta_0\)\(\beta_1\),也就是估计\(\beta_0\)\(\beta_1\)使得观测值\(y_i\)与回归直线之间差值的平方和最小。由方程(2.1)可以写出

\[y_i=\beta_0+\beta_1x_i+\varepsilon_i\quad(i = 1, 2, \cdots, n) \]

有时将方程(2.1)视为总体回归模型,而将方程(2.3)视为样本回归模型,其中样本回归模型由\(n\)对数据\((y_i, x_i)(i = 1, 2, \cdots, n)\)写出。因此最小二乘准则为

\[S(\beta_0,\beta_1)=\sum_{i = 1}^{n}(y_i-\beta_0-\beta_1x_i)^2 \]

\(\beta_0\)\(\beta_1\)的最小二乘估计量分别称为\(\hat{\beta}_0\)\(\hat{\beta}_1\)\(\hat{\beta}_0\)\(\hat{\beta}_1\)必须满足

\[\frac{\partial S}{\partial \hat{\beta}_0}\big|_{\hat{\beta}_0,\hat{\beta}_1}=-2\sum_{i = 1}^{n}(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)=0 \]

以及

\[\frac{\partial S}{\partial \hat{\beta}_1}\big|_{\hat{\beta}_0,\hat{\beta}_1}=-2\sum_{i = 1}^{n}(y_i-\hat{\beta}_0-\hat{\beta}_1x_i)x_i=0 \]

化简这两个方程,得到

\[\begin{align*} n\hat{\beta}_0+\hat{\beta}_1\sum_{i = 1}^{n}x_i&=\sum_{i = 1}^{n}y_i\\ \hat{\beta}_0\sum_{i = 1}^{n}x_i+\hat{\beta}_1\sum_{i = 1}^{n}x_i^2&=\sum_{i = 1}^{n}y_ix_i \end{align*} \]

方程(2.5)称为最小二乘正规方程,正规方程的解为

\[\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x} \]

以及

\[\hat{\beta}_1 = \frac{\sum_{i = 1}^{n}y_ix_i-\frac{(\sum_{i = 1}^{n}y_i)(\sum_{i = 1}^{n}x_i)}{n}}{\sum_{i = 1}^{n}x_i^2-\frac{(\sum_{i = 1}^{n}x_i)^2}{n}} \]

式中:

\[\bar{y}=\frac{1}{n}\sum_{i = 1}^{n}y_i\ 与\ \bar{x}=\frac{1}{n}\sum_{i = 1}^{n}x_i \]

分别为\(y_i\)的平均值与\(x_i\)的平均值。因此,方程(2.6)中的\(\hat{\beta}_0\)与方程(2.7)中的\(\hat{\beta}_1\)分别是截距与斜率的最小二乘估计量。所以简单回归分析模型拟合为

\[\hat{y}=\hat{\beta}_0+\hat{\beta}_1x \]

由于方程(2.7)的分母为\(x_i\)的校正平方和,分子为\(x_i\)\(y_i\)的校正叉积和,所以可以将分母和分子用更紧凑的记号记为

\[S_{xx}=\sum_{i = 1}^{n}x_i^2-\frac{(\sum_{i = 1}^{n}x_i)^2}{n}=\sum_{i = 1}^{n}(x_i-\bar{x})^2 \]

以及

\[S_{xy}=\sum_{i = 1}^{n}y_ix_i-\frac{(\sum_{i = 1}^{n}y_i)(\sum_{i = 1}^{n}x_i)}{n}=\sum_{i = 1}^{n}y_i(x_i-\bar{x}) \]

因此,方便起见将方程(2.7)记为

\[\hat{\beta}_1=\frac{S_{xy}}{S_{xx}} \]

响应变量的值\(y_i\)和与其对应的拟合值\(\hat{y}_i\)之间的差值为残差。数学上第\(i\)个残差为

\[e_i = y_i - \hat{y}_i = y_i - (\hat{\beta}_0 + \hat{\beta}_1x_i)\quad (i = 1, 2, \cdots, n) \]

残差在研究模型适用性,以及在探测是否违背基本假设中扮演重要的角色,后续章节将讨论这一问题。

2.2.2 最小二乘估计量的性质与回归模型拟合

最小二乘估计量\(\hat{\beta}_0\)\(\hat{\beta}_1\)有若干重要性质。首先,注意方程(2.6)与方程(2.7),\(\hat{\beta}_0\)\(\hat{\beta}_1\)是观测值\(y_i\)的线性组合。举例来说,

\[\hat{\beta}_1=\frac{S_{xy}}{S_{xx}}=\sum_{i = 1}^{n}c_iy_i \]

式中:\(c_i=(x_i - \bar{x})/S_{xx}\quad (i = 1, 2, \cdots, n)\)
最小二乘估计量\(\hat{\beta}_0\)\(\hat{\beta}_1\)是模型参数\(\beta_0\)\(\beta_1\)的无偏估计量。为了证明这一结论,可考虑\(E(\hat{\beta}_1)\),所以

\[E(\hat{\beta}_1)=E\left(\sum_{i = 1}^{n}c_iy_i\right)=\sum_{i = 1}^{n}c_iE(y_i)=\sum_{i = 1}^{n}c_i(\beta_0+\beta_1x_i)=\beta_0\sum_{i = 1}^{n}c_i+\beta_1\sum_{i = 1}^{n}c_ix_i \]

由于假设了\(E(\varepsilon_i)=0\),所以能直接证明\(\sum_{i = 1}^{n}c_i = 0\)\(\sum_{i = 1}^{n}c_ix_i = 1\),所以

\[E(\hat{\beta}_1)=\beta_1 \]

也就是说,如果假设模型是正确的(\(E(y_i)=\beta_0+\beta_1x_i\)),那么\(\hat{\beta}_1\)\(\beta_1\)的无偏估计量。同理可以证明\(\hat{\beta}_0\)\(\beta_0\)的无偏估计量,即

\[E(\hat{\beta}_0)=\beta_0 \]

得到\(\hat{\beta}_1\)的方差为

\[Var(\hat{\beta}_1)=Var\left(\sum_{i = 1}^{n}c_iy_i\right)=\sum_{i = 1}^{n}c_i^2Var(y_i) \]

因为观测值\(y_i\)不相关,所以和的方差就是方差的和。和式中每项的方差为\(c_i^2Var(y_i)\),又假设了\(Var(y_i)=\sigma^2\),因此

\[Var(\hat{\beta}_1)=\sigma^2\sum_{i = 1}^{n}c_i^2=\frac{\sigma^2\sum_{i = 1}^{n}(x_i - \bar{x})^2}{S_{xx}^2}=\frac{\sigma^2}{S_{xx}} \]

\(\hat{\beta}_0\)的方差为

\[Var(\hat{\beta}_0)=Var(\bar{y}-\hat{\beta}_1\bar{x})=Var(\bar{y})+\bar{x}^2Var(\hat{\beta}_1)-2\bar{x}Cov(\bar{y},\hat{\beta}_1) \]

因为\(\bar{y}\)的方差就是\(Var(\bar{y})=\sigma^2/n\),又可以证明\(\bar{y}\)\(\hat{\beta}_1\)之间的协方差为零(见习题2.25),所以

\[Var(\hat{\beta}_0)=Var(\bar{y})+\bar{x}^2Var(\hat{\beta}_1)=\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right) \]

与最小二乘估计量\(\hat{\beta}_0\)\(\hat{\beta}_1\)的估计质量有关的另一个重要结果是高斯 - 马尔可夫定理,这一定理是说对于满足假设\(E(\varepsilon)=0\)\(Var(\varepsilon)=\sigma^2\)及误差不相关的回归模型方程(2.1),最小二乘估计量是无偏的,同时相比所有其他同为\(y_i\)线性组合的无偏估计量,最小二乘估计量的方差最小。通常称最小二乘估计量是最佳线性无偏估计量,其中“最佳”意味着方差最小。附录C.4对于更为一般的多元线性回归情形,证明了高斯 - 马尔可夫定理,而简单线性回归是多元线性回归的特例。
最小二乘拟合还有如下若干有用的性质。

  1. 所有含有截距项\(\beta_0\)的回归模型其残差之和恒为零,也就是说

\[\sum_{i = 1}^{n}(y_i - \hat{y}_i)=\sum_{i = 1}^{n}e_i = 0 \]

这一性质可以由方程(2.5)中第一个正规方程直接得到。表2 - 2论证了例2.1中残差的这一性质,四舍五入误差可能影响求和的值。
2) 观测值\(y_i\)的和等于拟合值\(\hat{y}_i\)的和,即

\[\sum_{i = 1}^{n}y_i=\sum_{i = 1}^{n}\hat{y}_i \]

表2 - 2展示了例2.1中的这一结果。
3) 最小二乘回归直线总是穿过数据的中点\((\bar{y},\bar{x})\)
4) 以对应回归变量值为权重的残差之和恒等于零,也就是说

\[\sum_{i = 1}^{n}x_ie_i = 0 \]

  1. 以对应拟合值为权重的残差之和恒等于零,也就是说

\[\sum_{i = 1}^{n}\hat{y}_ie_i = 0 \]

2.2.3 \(\sigma^2\)的估计

除了估计\(\beta_0\)\(\beta_1\)之外,假设检验以及构造与回归模型有关的区间估计都需要\(\sigma^2\)的估计值。理想情况下需要这一估计值与模型拟合的适用性无关,这只有在对至少一个\(x\)值有若干个\(y\)的观测值(见4.5节),或者能获得与\(\sigma^2\)有关的先验信息时,才是可能的。如果不能使用以上方法得到\(\sigma^2\)的估计值,就要通过残差平方和即误差平方和

\[SS_{残}=\sum_{i = 1}^{n}e_i^2=\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2 \]

来求得。可以将\(\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_i\)代入方程(2.16)求得便于计算的\(SS_{残}\)公式,

\[SS_{残}=\sum_{i = 1}^{n}y_i^2 - n\bar{y}^2-\hat{\beta}_1S_{xy} \]

\[\sum_{i = 1}^{n}y_i^2 - n\bar{y}^2=\sum_{i = 1}^{n}(y_i - \bar{y})^2 = SS_{总} \]

恰是响应变量观测值的校正平方和,所以,

\[SS_{残}=SS_{总}-\hat{\beta}_1S_{xy} \]

残差平方和有\(n - 2\)个自由度,这是因为两个自由度与得到\(\hat{y}_i\)的估计值\(\hat{\beta}_0\)\(\hat{\beta}_1\)相关。附录C.3证明了\(SS_{残}\)的期望值为\(E(SS_{残})=(n - 2)\sigma^2\),所以\(\sigma^2\)的无偏估计量为

\[\hat{\sigma}^2=\frac{SS_{残}}{n - 2}=MS_{残} \]

式中:\(MS_{残}\)为残差均方。\(\hat{\sigma}\)的平方根有时称为回归标准误差,回归标准误差与响应变量\(y\)具有相同的单位。
因为\(\sigma^2\)取决于残差平方和,所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏\(\sigma^2\)的估计值\(\hat{\sigma}^2\)的实用性。因为\(\hat{\sigma}^2\)由回归模型的残差算得,所以称\(\sigma^2\)的估计值是模型依赖的。

2.2.4 简单线性回归模型的另一种形式

简单线性回归模型有时还会用到另一种形式。假设重新定义回归变量\(x_i\)使其通过自身平均值,比如,通过\(x_i-\bar{x}\)推导而来。那么回归模型就变为

\[y_i=\beta_0+\beta_1(x_i - \bar{x})+\beta_1\bar{x}+\varepsilon_i=(\beta_0+\beta_1\bar{x})+\beta_1(x_i - \bar{x})+\varepsilon_i=\beta_0'+\beta_1(x_i - \bar{x})+\varepsilon_i \]

注意,方程中重新定义的回归变量由原点由零移到了\(\bar{x}\)。为了使原模型与变换后模型的拟合值保持相同,需要修正原模型的截距。变换后截距与原截距之间的关系为

\[\beta_0'=\beta_0+\beta_1\bar{x} \]

容易证明变换后截距的最小二乘估计量为\(\hat{\beta}_0'=\bar{y}\),而斜率的估计量不受变换影响。模型的这另一种形式有若干优势。首先,最小二乘估计量\(\hat{\beta}_0'=\bar{y}\)\(\hat{\beta}_1=S_{xy}/S_{xx}\)不相关,即\(Cov(\hat{\beta}_0',\hat{\beta}_1)=0\),这将使得模型的某些应用更为简单,比如,得到\(y\)均值的置信区间(见2.4.2节)。最后,模型拟合为

\[\hat{y}=\bar{y}+\hat{\beta}_1(x - \bar{x}) \]

显然方程(2.22)与方程(2.8)是等价的(对相同的\(x\)值都产生相同的\(\hat{y}\)值),但方程(2.22)会直接提醒数据分析师,回归模型仅在原数据的\(x\)取值范围内有效,这一区域以\(\bar{x}\)为中心。

2.3 斜率与截距的假设检验

模型参数的假设检验与置信区间的构造通常是令人感兴趣的。假设检验在本节讨论,而2.4节讨论处理置信区间。这两种处理需要还需要一个假设:\(\varepsilon_i\)服从正态分布。因此,完整的假设是,误差服从独立正态分布且均值为0,方差为\(\sigma^2\),简写为\(NID(0,\sigma^2)\)。第4章讨论如何通过残差分析检查这些假设。

2.3.1 使用\(t\)检验

假设希望检验斜率等于常数这一假设,称这一假设为\(\beta_{10}\),恰当的假设为

\[H_0:\beta_1 = \beta_{10},\ H_1:\beta_1\neq\beta_{10} \]

式中设定了一个双侧检验。由于误差\(\varepsilon_i\)服从\(NID(0,\sigma^2)\)分布,所以观测值\(y_i\)服从\(NID(\beta_0 + \beta_1x_i,\sigma^2)\)分布。\(\hat{\beta}_1\)是观测值的线性组合,所以使用2.2.2节得到的\(\hat{\beta}_1\)的均值与方差中,\(\hat{\beta}_1\)服从均值为\(\beta_1\)、方差为\(\sigma^2/S_{xx}\)的正态分布。因此如果零假设\(H_0:\beta_1 = \beta_{10}\)为真,那么统计量

\[Z_0=\frac{\hat{\beta}_1-\beta_{10}}{\sqrt{\sigma^2/S_{xx}}} \]

服从\(N(0,1)\)分布。如果\(\sigma^2\)已知,就能使用\(Z_0\)检验假设方程(2.23),而一般情况下,\(\sigma^2\)是未知的。已经看到\(MS_{残}\)\(\sigma^2\)的无偏估计量。附录C.3验证了\((n - 2)MS_{残}\)服从\(\chi_{n - 2}^2\)分布且\(MS_{残}\)\(\hat{\beta}_1\)独立。附录C.1给出的\(t\)统计量的定义为

\[t_0=\frac{\hat{\beta}_1-\beta_{10}}{\sqrt{MS_{残}/S_{xx}}} \]

如果零假设\(H_0:\beta_1 = \beta_{10}\)为真,那么\(t_0\)服从\(t_{n - 2}\)分布。\(t_0\)的自由度就是\(MS_{残}\)的自由度。因此,此比率\(t_0\)是用于检验\(H_0:\beta_1 = \beta_{10}\)的统计量。检验程序是,将来自方程(2.24)的\(t_0\)的观测值与\(t_{n - 2}\)分布\((t_{\alpha/2,n - 2})\)的上\(\alpha/2\)分位点进行比较。如果

\[|t_0|>t_{\alpha/2,n - 2} \]

这一程序将拒绝原假设。另外,\(P\)值方法也可以用于决策。
方程(2.24)中检验统计量\(t_0\)的分母通常称为斜率的估计标准误差,或更简单地称为斜率的标准误差。也就是说,

\[se(\hat{\beta}_1)=\sqrt{\frac{MS_{残}}{S_{xx}}} \]

因此,通常将\(t_0\)写为

\[t_0=\frac{\hat{\beta}_1-\beta_{10}}{se(\hat{\beta}_1)} \]

同理可以处理用于截距的假设检验。为了检验

\[H_0:\beta_0 = \beta_{00},\ H_1:\beta_0\neq\beta_{00} \]

要使用检验统计量

\[t_0=\frac{\hat{\beta}_0-\beta_{00}}{\sqrt{MS_{残}(1/n+\bar{x}^2/S_{xx})}}=\frac{\hat{\beta}_0-\beta_{00}}{se(\hat{\beta}_0)} \]

式中:\(se(\hat{\beta}_0)=\sqrt{MS_{残}(1/n+\bar{x}^2/S_{xx})}\)为截距的标准误差。如果\(|t_0|>t_{\alpha/2,n - 2}\),则拒绝零假设\(H_0:\beta_0 = \beta_{00}\)

2.3.2 回归显著性检验

方程(2.23)中假设的一个非常重要的特例是

\[H_0:\beta_1 = 0,\ H_1:\beta_1\neq0 \]

这一假设与回归显著性有关。不能拒绝\(H_0:\beta_1 = 0\),意味着\(x\)\(y\)之间不存在线性关系,这一情形如图2 - 2所示。注意,这可能意味着\(x\)对解释\(y\)的方差几乎是无用的,对于任意\(x\)\(y\)的最优统计量\(\hat{y}=\bar{y}\)(见图2 - 2a),也可能意味着\(x\)\(y\)之间的真实关系不是线性的(见图2 - 2b)。因此,不能拒绝\(H_0:\beta_1 = 0\),等价于\(x\)\(y\)之间不存在线性关系。
另外,如果拒绝\(H_0:\beta_1 = 0\),就意味着\(x\)对解释\(y\)的方差是有用的,如图2 - 3所示。拒绝\(H_0:\beta_1 = 0\),可能意味着直线模型是合适的(见图2 - 3a),但也可能意味着,即使存在\(x\)\(y\)的线性影响,也能通过加入关于\(x\)的更高阶多项式来得到更好的结果(见图2 - 3b)。
可以通过两种方法研究对\(H_0:\beta_1 = 0\)的检验程序。第一种方法就是,利用\(\beta_{10}=0\)时方程(2.27)中的\(t\)统计量,即

\[t_0=\frac{\hat{\beta}_1}{se(\hat{\beta}_1)} \]

\(|t_0|>t_{\alpha/2,n - 2}\),拒绝回归显著性的零假设。

2.3.3 方差分析

也可以使用方差分析法检验回归显著性。方差分析以分割响应变量\(y\)的总变异性为基础。为了得到\(y\)总变异性的分割,从恒等式

\[y_i-\bar{y}=(\hat{y}_i-\bar{y})+(y_i - \hat{y}_i) \]

开始。将方程(2.31)两边平方,并对所有\(n\)个观测值求和,得到

\[\sum_{i = 1}^{n}(y_i-\bar{y})^2=\sum_{i = 1}^{n}(\hat{y}_i-\bar{y})^2+\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2+2\sum_{i = 1}^{n}(\hat{y}_i-\bar{y})(y_i - \hat{y}_i) \]

注意,由于残差之和恒为零(2.2.2节性质1)且以其对应拟合值\(\hat{y}_i\)为权重的残差之和也为零(2.2.2节性质5),所以这一表达式右边的第三项可以改写为

\[\begin{align*} 2\sum_{i = 1}^{n}(\hat{y}_i-\bar{y})(y_i - \hat{y}_i)&=2\sum_{i = 1}^{n}\hat{y}_i(y_i - \hat{y}_i)-2\bar{y}\sum_{i = 1}^{n}(y_i - \hat{y}_i)\\ &=2\sum_{i = 1}^{n}\hat{y}_ie_i-2\bar{y}\sum_{i = 1}^{n}e_i = 0 \end{align*} \]

因此,

\[\sum_{i = 1}^{n}(y_i-\bar{y})^2=\sum_{i = 1}^{n}(\hat{y}_i-\bar{y})^2+\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2 \]

方程(2.32)的左边为观测值的校正平方和\(SS_{总}\),其度量了观测值中总的变异性。\(SS_{总}\)的两个组成部分分别度量了由回归直线引起的观测值\(y_i\)变异性的数量与剩余的回归直线未解释的残差的方差。方程(2.16)确认\(SS_{残}=\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2\)为残差平方和即误差平方和,而习惯上将\(\sum_{i = 1}^{n}(\hat{y}_i-\bar{y})^2\)称为回归平方和或模型平方和。
方程(2.32)为回归模型方差分析基本恒等式。通常用符号记为

\[SS_{总}=SS_{回}+SS_{残} \]

对比方程(2.33)与方程(2.18),发现回归平方和可以由

\[SS_{回}=\hat{\beta}_1S_{xy} \]

算得。
确定自由度分解的方式如下。因为对离差\(y_i-\bar{y}\)的约束\(\sum_{i = 1}^{n}(y_i-\bar{y})\)使\(SS_{总}\)丢失了一 个自由度,所以总平方和有\(df_{总}=n - 1\)个自由度。因为\(SS_{回}\)完全由\(\hat{\beta}_1\)这一个参数确定(见方程(2.34)),所以模型平方和即回归平方和有\(df_{回}=1\)个自由度。最后注意前文\(SS_{残}\),因为估计\(\beta_0\)\(\beta_1\)时对离差\(y_i-\hat{y}_i\)施加了两个约束,所以\(SS_{残}\)\(n - 2\)个自由度。注意,自由度有可加性,即

\[df_{总}=df_{回}+df_{残}\quad(n - 1 = 1+(n - 2)) \]

通常可以使用方差分析\(F\)检验来检验假设\(H_0:\beta_1 = 0\)。附录C.3证明了:①\(SS_{残}=(n - 2)MS_{残}/\sigma^2\)服从\(\chi_{n - 2}^2\)分布;②如果零假设\(H_0:\beta_1 = 0\)为真,那么\(SS_{回}/\sigma^2\)服从\(\chi_1^2\)分布;③\(SS_{残}\)\(SS_{回}\)独立。由附录C.1给出的\(F\)统计量的定义为

\[F_0=\frac{SS_{回}/df_{回}}{SS_{残}/df_{残}}=\frac{SS_{回}/1}{SS_{残}/(n - 2)}=\frac{MS_{回}}{MS_{残}} \]

其服从\(F_{1,n - 2}\)分布。附录C.3也证明了这两个均方的期望值为\(E(MS_{残})=\sigma^2\)\(E(MS_{回})=\sigma^2+\beta_1^2S_{xx}\)
由这些均方的期望表明,如果\(F_0\)的观测值较大,那么就可能有斜率\(\beta_1\neq0\)。附录C.3也证明了当\(\beta_1\neq0\)\(F_0\)服从以1和\(n - 2\)为非中心参数的非中心\(F\)分布,其非中心化参数为

\[\lambda=\frac{\beta_1^2S_{xx}}{\sigma^2} \]

这一非中心化参数也表明如果\(\beta_1\neq0\),则\(F_0\)的观测值应当较大。因此,为了检验假设\(\beta_1\neq0\),要计算检验统计量\(F_0\),当

\[F_0>F_{\alpha,1,n - 2} \]

时拒绝\(H_0\)
表2 - 4汇总了这一检验程序。

2.5 新观测值的预测

回归模型的一个重要应用是预测特定水平的回归变量\(x\)对应的新观测值\(y\)。如果\(x_0\)是所感兴趣的回归变量的值,那么

\[\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1x_0 \]

是响应变量\(y_0\)新值点的估计。
现在考虑如何得到这一未来观测值\(y_0\)的区间估计。因为在\(x = x_0\)处响应变量均值的置信区间是对\(y\)(参数)均值的区间估计,不是对来自分布的关于未来观测值的概率表述,所以方程(2.43)对这一问题不适用。下面研究未来观测值\(y_0\)的预测区间。
注意随机变量

\[\psi=y_0-\hat{y}_0 \]

因为未来观测值\(y_0\)\(\hat{y}_0\)独立,所以其服从均值为零,方差为

\[Var(\psi)=Var(y_0 - \hat{y}_0)=\sigma^2\left[1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}\right] \]

的正态分布。如果使用\(\hat{y}_0\)预测\(y_0\),那么\(\psi=y_0 - \hat{y}_0\)的标准误差对建立预测区间是一个恰当的统计量。因此,\(x_0\)处未来观测值的\(100\times(1 - \alpha)\%\)预测区间为

\[\hat{y}_0 - t_{\alpha/2,n - 2}\sqrt{MS_{残}\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}\right)}\leqslant y_0\leqslant\hat{y}_0 + t_{\alpha/2,n - 2}\sqrt{MS_{残}\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{S_{xx}}\right)} \]

预测区间方程(2.45)在\(x_0=\bar{x}\)处宽度最小,并随着\(|x_0-\bar{x}|\)的增大而变宽。对比方程(2.45)与方程(2.43),观察到\(x_0\)处的预测区间总是比\(x_0\)处的置信区间更宽,这是因为预测区间既和来自模型拟合的误差有关,也和与未来观测值有关的误差有关。

2.6 决定系数

统计量

\[R^2=\frac{SS_{回}}{SS_{总}}=1 - \frac{SS_{残}}{SS_{总}} \]

称为决定系数。由于\(SS_{总}\)是对未考虑回归变量\(x\)影响的\(y\)变异性的度量,而\(SS_{残}\)是对考
\(x\)后剩余的\(y\)的变异性的度量,所以将\(R^2\)称为由回归变量\(x\)解释的变异性的性质。因为\(0\leqslant SS_{残}\leqslant SS_{总}\),所以得到\(0\leqslant R^2\leqslant1\)\(R^2\)的值接近\(1\)意味着大部分\(y\)的变异性由回归模型解释。对例2.1中火箭推进剂数据的回归模型,有

\[R^2=\frac{SS_{回}}{SS_{总}}=\frac{1527334.95}{1693737.60}=0.9018 \]

也就是说,剪切强度中\(90.18\%\)的变异性是回归模型所引起的。
应当谨慎地使用统计量\(R^2\),这是由于对模型添加足够多的项总能使\(R^2\)变大。举例来说,如果不存在重合的点(同一个\(x\)值上的\(y\)值不止一个),那么\(n - 1\)次多项式将对\(n\)个数据点给出“完美”的拟合(\(R^2 = 1\))。如果存在重合的点,因为模型不能解释与“纯粹”误差有关的方差,所以\(R^2\)不可能精确地等于\(1\)。向模型中添加回归变量时虽然\(R^2\)不会减小,但这也不必然意味着新模型优于旧模型。除非新模型的误差平方和被一个相同数量的等式减小到了原模型误差平方和的大小,否则因为丢失了误差的一个自由度,新模型将有比旧模型更大的均方误差。
\(R^2\)的大小也依赖于回归变量方差的范围。一般来说在假设的模型形式正确的前提下,\(R^2\)将随着\(x\)的分散程度的增加而增加,随着\(x\)分散程度的下降而下降。通过Delta方法(另见Hahn(1973)),可以证明直线回归中\(R^2\)的期望值近似为

\[E(R^2)\approx\frac{\beta_1^2S_{xx}/(n - 1)}{\frac{\beta_1^2S_{xx}}{n - 1}+\sigma^2} \]

显然\(R^2\)的期望值将随着\(S_{xx}\)(\(x\)分散程度的度量)的增加(下降)而增加(下降)。因此,\(R^2\)的值较大只是由于\(x\)在一个大得不切实际的范围内变化所致。但另一方面,\(R^2\)可能较小,这是因为\(x\)的范围太小而不容许探测其与\(y\)的关系。
对于\(R^2\),还存在其他误解。一般情况下,\(R^2\)不是回归直线斜率大小的度量。较大的\(R^2\)值并不意味着斜率是陡峭的。进一步来说,它也不是线性模型适用性程度的度量,即使\(y\)\(x\)非线性相关,\(R^2\)通常也将较大。举例来说,即使线性逼近是不良的,图2 - 3中的回归方程的\(R^2\)也较大。记住,即使\(R^2\)较大,也并不必然意味着回归模型能进行精确的预测。

posted @ 2025-02-28 10:41  redufa  阅读(25)  评论(0)    收藏  举报