2.2 回归参数 β0 和 β1 的估计
2.2.1 普通最小二乘估计
(1) 普通最小二乘估计形式
对每一个样本观测值 (xi,yi),最小二乘法考虑观测值 yi 与其回归值 E(yi)=β0+β1xi 的离差越小越好,综合考虑 n 个离差值,定义离差平方和为:
Q(β0,β1)=n∑i=1[yi−E(yi)]2=n∑i=1(yi−β0−β1xi)2(2.2.1)
普通最小二乘估计,要求寻找参数 β0,β1 的估计值 ^β0,^β1,使式 (2.2.1) 定义的离差平方和达到最小。
Q(^β0,^β1)=n∑i=1(yi−^β0−^β1xi)2=minβ0,β1n∑i=1(yi−β0−β1xi)2(2.2.2)
依照式 (2.2.2) 求出的 ^β0,^β1 就称为回归参数 β0,β1 的最小二乘估计。
定义 yi 的回归拟合值为式 (2.2.3)。
^yi=^β0+^β1xi(2.2.3)
yi 的残差为式 (2.2.4)。
ei=yi−^yi(2.2.4)
定义残差平方和为
n∑i=1e2i=n∑i=1(yi−^β0−^β1xi)2(2.2.5)
式 (2.2.5) 从整体上刻画了 n 个样本观测点 (xi,yi) 到回归直线 (2.2.3) 的距离长短。

(2) 普通最小二乘估计求解
从式 (2.2.2) 中求解 ^β0 和 ^β1,由于 Q 是关于 β0 和 β1 的非负二次函数,因此最小值总是存在。由费马引理,β0,β1 应满足下列方程:
⎧⎪
⎪
⎪
⎪
⎪⎨⎪
⎪
⎪
⎪
⎪⎩∂Q∂β0∣∣∣β0=^β0=−2n∑i=1(yi−^β0−^β1xi)=0∂Q∂β1∣∣∣β1=^β1=−2n∑i=1(yi−^β0−^β1xi)xi=0(2.2.6)
得正规方程组
⎧⎪
⎪
⎪
⎪
⎪
⎪⎨⎪
⎪
⎪
⎪
⎪
⎪⎩n^β0+(n∑i=1xi)^β1=n∑i=1yi(n∑i=1xi)^β0+(n∑i=1x2i)^β1=n∑i=1xiyi(2.2.7)
简单标记
¯¯¯x=1nn∑i=1xi,¯¯¯y=1nn∑i=1yi
求解正规方程组得 β0、β1 的最小二乘估计:
⎧⎪
⎪
⎪
⎪⎨⎪
⎪
⎪
⎪⎩^β0=¯¯¯y−^β1¯¯¯x^β1=∑ni=1(xi−¯¯¯x)(yi−¯¯¯y)∑ni=1(xi−¯¯¯x)2(2.2.8)
简单标记
Lxx=n∑i=1(xi−¯¯¯x)2=n∑i=1x2i−n(¯¯¯x)2Lxy=n∑i=1(xi−¯¯¯x)(yi−¯¯¯y)=n∑i=1xiyi−n¯¯¯x¯¯¯y(2.2.9)(2.2.10)
式 (2.2.8) 可简写为:
{^β0=¯¯¯y−^β1¯¯¯x^β1=Lxy/Lxx(2.2.11)
由式 (2.18) 可以得到残差的一个重要性质:残差平均值为 0,残差以自变量 x 加权的平均值为 0。
⎧⎪
⎪
⎪
⎪
⎪⎨⎪
⎪
⎪
⎪
⎪⎩n∑i=1ei=0n∑i=1xiei=0(2.2.12)
2.2.2 最大似然估计
(1) 最大似然估计简介
给定一个总体 X,设分布密度函数为 {f(x;θ)},其中 θ∈Θ。假设总体 X 的一个独立同分布样本为 x1,x2,⋯,xn,则似然函数为:
L(θ;x1,x2,⋯,xn)=n∏i=1f(xi;θ)(2.2.13)
最大似然估计准则要求:在一切 θ 中选取使随机样本 (X1,X2,⋯,Xn) 落在点 (x1,x2,⋯,xn) 的概率最大的 ˆθ 为未知参数 θ 真值的估计值,数学表示如下:
L(ˆθ;x1,x2,⋯,xn)=maxθL(θ;x1,x2,⋯,xn)(2.2.14)
似然函数的概念并不局限于独立同分布的样本,只要样本的联合密度形式已知,就可以应用最大似然估计。
(2) 一元线性回归模型参数的最大似然估计
得到样本观测值 (xi,yi),其中,xi 为非随机变量,yi 为随机变量。假设 ε∼N(0,σ2),则 yi 服从正态分布
yi∼N(β0+β1xi,σ2)(2.2.15)
于是 y1,y2,⋯,yn(注意 yi 不是独立同分布的)的似然函数为:
L(β0,β1,σ2;y1,y2,⋯,yn)=n∏i=1fi(yi;θ)=(2πσ2)−n/2exp{−12σ2n∑i=1[yi−(β0+β1xi)]2}(2.2.16)
取对数似然函数为:
ln(L)=−n2ln(2πσ2)−12σ2n∑i=1[yi−(β0+β1xi)]2(2.2.17)
为求式 (2.2.16) 的最大值,等价于对 ∑ni=1[yi−(β0+β1xi)]2 求最小值,而这又与最小二乘原理完全相同。因而 β0,β1的最大似然估计就是式 (2.2.8) 的最小二乘估计。
由最大似然估计可以得到 σ2 的估计值为:
^σ2=1nn∑i=1[yi−(^β0+^β1xi)]2(2.2.18)
上式是 σ2 的有偏估计,实际应用中,可用无偏估计量作为 σ2 的估计量
^σ2=1n−2n∑i=1[yi−(^β0+^β1xi)]2(2.2.19)
我们应该注意,最大似然估计是在 εi∼N(0,σ2) 的正态分布假设下求得的,而最小二乘估计对分布假设没有要求。此外,yi 虽然不是独立同分布的,但按最大似然原则仍可以求得参数的估计值(根本原因是知道样本的联合密度)。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现