数学 - 回归分析 - 第 2 章 一元线性回归 - 2.3 最小二乘估计的性质

2.3 最小二乘估计的性质

2.3.1 线性

线性指估计量 β^0β^1 为随机变量 yi 的样本的线性函数,由式 (2.2.8) 我们可以得到等价的表达式:

(2.3.1)β^1=i=1n(xix¯)yii=1n(xix¯)2

可以看出 β^1yi 的线性组合,由此可进一步得出 β^0 也可表示为 yi 的线性组合。

因为 yi 是随机变量,因此 β^0β^1 也可视为随机变量。

2.3.2 无偏性

由于 xi 是非随机变量,E(εi)=0,我们由下式:

(2.3.2)E(yi)=E(β0+β1xi+εi)=β0+β1xi

可以得到如下定理:

定理 2.3.1

β^0β0 的无偏估计;β^1β1 的无偏估计。

证明:由式 (2.3.1) 可计算期望

(2.3.3)E(β^1)=i=1n(xix¯)i=1n(xix¯)2E(yi)=i=1n(xix¯)i=1n(xix¯)2(β0+β1xi)=β1

同理可证 β^0β0 的无偏估计。

进一步有:

(2.3.4)E(y^)=E(β^0+β^1xi)=β0+β1xi=E(y)

上式表明回归值 y^ 是随机变量 y 的无偏估计,表明 y^ 与随机变量 y 的期望值是相同的。

2.3.3 β0β1的方差

我们研究估计量的方差,由于 y1y2yn 是相互独立的,且 var(yi)=σ2,得

(2.3.5)var(β^1)=i=1n[(xix¯)j=1n(xjx¯)2]2var(yi)=σ2i=1n(xix¯)2

我们再估计 β^0 的方差:

(2.3.6)var(β^0)=var(y¯β^1x¯)=var(y¯i=1n(xix¯)yii=1n(xix¯)2x¯)=var(i=1n[1n(xix¯)x¯i=1n(xix¯)2]yi)=i=1n[1n(xix¯)x¯i=1n(xix¯)2]2var(yi)=σ2i=1n[1n(xix¯)x¯i=1n(xix¯)2]2=σ2[1n+(x¯)2i=1n(xix¯)2]

从结果可以得出两点

  • 回归系数 β^1 不仅与随机误差的方差 σ2 有关,而且与自变量 x 的取值离散程度有关。

  • 回归常数 β^0 不仅与随机误差的方差 σ2 和自变量 x 的取值离散程度有关,而且与数据的个数 n 有关。

总之可以看到,要想使 β0β1 的估计值 β^0β^1 更稳定,在收集数据时,应该考虑以下两点

  • 随机误差的方差如果能一定程度上进行控制,尽量使其最小。

  • 使 x 的取值尽量分散一些,不要挤在一块。

  • 样本量尽可能大一些。

2.3.4 正态性

β^1β^0 的线性性质可以知道,β^0β^1 都是 n 个独立的正态随机变量 yi 的线性组合,因此 β^0β^1 也服从正态分布。且由均值和方差知:

(2.3.7)β^0N(β0,(1n+(x¯)2Lxx)σ2),β^1N(β1,σ2Lxx)

可以计算 β^0β^1 的协方差:

(2.3.8)cov(β^0,β^1)=cov(y¯β^1x¯,i=1n(xix¯)i=1n(xix¯)2yi)=cov(i=1n[1n(xix¯)x¯i=1n(xix¯)2]yi,i=1n(xix¯)i=1n(xix¯)2yi)=i=1n{[1n(xix¯)x¯i=1n(xix¯)2](xix¯)i=1n(xix¯)2var(yi)}=x¯Lxxσ2

(2.3.8) 说明,在 x¯=0 时,β^0β^1 不相关,在正态假定条件下独立;在 x¯0 时,β^0β^1 相关,在正态假定条件下不独立。

在高斯—马尔可夫条件下可以证明 β^0β^1 分别是 β0β1最佳线性无偏估计,也称最小方差线性无偏估计。即指在所有 β0β1 的线性无偏估计中,它们的方差最小。(证明见多元线性回归中的 G - M 定理)

固定 x0

(2.3.9)y^0=β^0+β^1x0

估计值 y^0 的期望已经由式 (2.3.4) 表出,下面计算其方差

var(y^0)=var(β^0+β^1x0)=var(β^0)+var(β^1x0)+2cov(β^0,β^1x0)=σ2[1n+(x¯)2Lxx]+x02σ2Lxx2x0x¯Lxxσ2=σ2[1n+(x¯)2Lxx+x02Lxx2x0x¯Lxx]=(1n+(x0x¯)2Lxx)σ2

故估计值 y^0 也是随机变量 y1y2yn 的线性组合,因此

(2.3.10)y^0N(β0+β1x0,(1n+(x0x¯)2Lxx)σ2)

由此可见,y^0 是随机变量 y0 的无偏估计,且 y^0 的方差随给定的 x0 值与 x¯ 的距离 |x0x¯| 的增大而增大。即当给定的 x0x 的样本平均值 x¯ 相差较大时,y^0 的估计波动就会增大。

因此实际应用回归方程进行控制和预测时,给定的 x0 值不能偏离样本均值太多。

posted on   Black_x  阅读(647)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示