从统计学看线性回归(2)——一元线性回归方程的显著性检验
目 录
1. σ2 的估计
2. 回归方程的显著性检验
t 检验(回归系数的检验)
F 检验(回归方程的检验)
相关系数的显著性检验
样本决定系数
三种检验的关系
一、σ2 的估计
因为假设检验以及构造与回归模型有关的区间估计都需要σ2的估计量,所以先对σ2作估计。
通过残差平方和(误差平方和)
(1)
(用到和,其中)
又∵ (2)
∴ (3)
其中 为响应变量观测值的校正平方和。残差平方和有n-2 个自由度,因为两个自由度与得到的估计值与相关。
(4)
(公式(4)在《线性回归分析导论》附录C.3有证明)
∴ σ2的无偏估计量:
(5)
为残差均方, 的平方根称为回归标准误差,与响应变量y 具有相同的单位。
因为σ2取决于残差平方和, 所以任何对模型误差假设的违背或对模型形式的误设都可能严重破坏σ2的估计值的实用性。因为由回归模型残差算得,称σ2的估计值是模型依赖的。
二、回归方程的显著性检验
目的:检验 是否真正描述了变量 y 与 x 之间的统计规律性。
假设:正态性假设 (方便检验计算)
- t 检验
用t 检验来检验回归系数的显著性。采用的假设如下:
原假设 H0 : β1 = 0 (x 与 y 不存在线性关系)
对立假设 H1 : β1 ≠ 0
回归系数的显著性检验就是要检验自变量 x 对因变量 y 的影响程度是否显著。下面我们分析接受和拒绝原假设的意义。
(1)接受 H0 : β1 = 0 (x 与 y 不存在线性关系)
此时有两种情况,一种是无论 x 取值如何, y 都在一条水平线上下波动,即,如下图1,另一种情况为, x 与 y 之间存在关系,但不是线性关系,如图2。
图 1
图 2
(2)拒绝 H0 : β1 = 0 (x 对解释 y 的方差是有用的)
拒绝原假设也有两种情况,一种是直线模型就是合适的,如图 3,另一种情况为存在 x 对 y 的线性影响,也可通过 x 的高阶多项式得到更好的结果,如图 4。
图 3
图 4
接下来对其检验。
∵ (6)
∴ 当H0 : β1 = 0 成立时,有:
(7)
在零附近波动,构造 t 统计量:
(8)
若原假设H0 : β1 = 0 成立,则 ,计算|t|,
|t| ≥ tα/2 , 拒绝 H0
|t| < tα/2 , 接受 H0
2.F 检验(方差分析)
F检验用于检验回归方程的显著性。
方差分析法检验回归显著性,方差分析以分割响应变量 y 的总变异性为基础。
∵
∴
∵ ,
∴
∴ (9)
其中 称为观测值的校正平方和或总称为平方和(SST: sum of squares for total, , Lyy),其度量了观测值中总的变异性。刻画 y 的波动程度。
称为模型平方和(或回归平方和),记为SSR(R: regression),,。其刻画由 x 的波动引起的 y 波动的部分。
是残差平方和(误差平方和),记为SSE(E: error), , 。其刻画了未加控制的因素引起 y 波动的部分。
∴ (10)
下来分析它们的自由度。因为 约束 使丢掉了一个自由度,所以个自由度;因为完全由一个参数确定,所以个自由度;因为估计β0与β1时对离差施加了两个约束,所以有n-2个自由度。
∵ 自由度有可加性
∴ (11)
因为总平方和反映因变量 y 的波动程度或称不确定性,在建立了 y 对 x 的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两部分,其中SSR是由回归方程确定的,也就是由自变量 x 的波动引起的,SSE是不能用自变量解释的波动,是由 x 之外的未加控制的因素引起的。这样,总平方和SST 中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE,从而,回归平方和SSR越大,回归的效果就越好,可以据此构造F 检验统计量为
(12)
在正态假设下,原假设H0 : β1 = 0 成立时,,当时,拒绝原假设。
3.相关系数的显著性检验
因为一元线性回归方程讨论的是变量 x 与变量 y 之间的线性关系,所以变量 x 与 y 之间的相关系数来检验回归方程的显著性。用相关系数来反应 x 与 y 的线性关系的密切程度。
x 与 y 的简单相关系数(Pearson 相关系数):
(13)
r的绝对值小于等于1:|r| ≤ 1
根据相关系数的检验表,通常当|r| 大于表中α=0.05相应的值时,认为 x 与 y 有显著的线性关系。
缺点:接近于1的程度与数据组数 n 有关(n 较小时,相关系数的波动较大,|r| 接近于1,n 较大时,|r|易偏小,n 较小时,不能仅凭 r 判定 x 与 y 之间有密切的线性关系)
另外补充一点,Pearson相关系数的适用范围:
① 两个变量之间是线性关系,都是连续数据;
② 两个变量的总体是正态分布,或接近正态分布;
③ 两个变量的观测值是成对的,每对观测值之间相互独立。
4.样本决定系数
由公式(10)可知,越大,线性回归越好,所以定义样本决定系数r2: 回归平方和与总离差平方和之比。
(14)
∵
(用到和)
∴ (15)
其中最右边的 r2 表示相关系数的平方。
决定系数 r2 是一个回归直线与样本观测值拟合优度(Goodness of Fit, 指回归直线对观测值的拟合程度)的相对指标,反映了因变量的波动中能用自变量解释的比例。
0 ≤ r2 ≤ 1,r2 越接近于 1 ,拟合优度越好。
那么r2 的值比较小的时候反应了什么情况呢?
r2 小的可能原因:
① 线性回归不成立,y 与 x 是曲线关系,应用曲线回归;
② y 与 x 之间符合线性模型,误差项方差σ2大,导致r2 小(n 很大时,线性回归显著)
在对自变量有重复观测时可以通过检验正确区分以上两种不同情况,或者用残差分析的方法。
相关系数和样本决定系数:
相关系数是建立在相关分析的理论基础上,研究两个变量 x 与 y 之间的线性相关关系;样本决定系数是建立在回归分析的理论基础之上,研究非随机变量 x 对 y 的解释程度。样本决定系数除掉了相关系数为0或1(|r|=1 or 0)的情况.
5.三种检验的关系
对于一元线性回归来说,回归系数显著性的 t 检验,回归方程显著性的 F 检验,相关系数显著性的 t 检验,这三种检验是等价的。相关系数显著性的 t 检验与回归系数显著性的 t 检验是完全相等的,式(12)F统计量则是这两个 t 统计量的平方。对于一元线性回归只需要做一种检验即可,而对于多元线性回归,这三种检验考虑的问题不同,是三种不同的检验,并不等价。