线性回归原理推导与应用(一):一元线性回归原理

1 数学定义

线性回归是一种使用特征属性的线性组合来预测响应的方法,通俗一点说线性是指每个自变量(或者说特征) x x x与因变量(或者说结果) y y y的结果是线性的关系,回归就是从离散的点中拟合出这个函数的过程。它的目标是找到一个线性函数,是这个函数尽可能的去拟合样本点,以尽可能准确地描述自变量(或者说特征) x x x与因变量(或者说结果) y y y之间的关系,使得预测值与真实值之间的误差最小化。
在这里插入图片描述
在数学上,线性回归要找的这个线性函数叫回归方程,我们初高中就学过这种类型的函数 y = b + k x y=b+kx y=b+kx。这种只有一个自变量 x x x,也就是一元线性回归。
需要注意的一点是,一般在说一元线性回归模型的时候通用形式为 y = b + k x + ε y=b+kx+\varepsilon y=b+kx+ε,其中 ε \varepsilon ε表示残差,表示线性模型中无法解释的部分。而求出来的回归方程就不包含这个残差

2 一元线性回归模型的参数估计理论推导

一元线性回归模型的表达式中有两个待确定的参数:斜率 k k k和截距 b b b,如何确定这两个参数,从而使得到的一元线性回归方程能更好的拟合已有的数据呢?一般的方法有最小二乘法、矩方法和极大似然方法。

最小二乘法

什么样的模型是好的呢?预测值与真实值之间的差距越小越好,距离越小,代表我们的模型效果越好,所以最小二乘法就是计算每一个样本点的实际值与预测值之间的差距并加总并求最小时的斜率 k k k和截距 b b b
首先为了衡量模型的性好坏,我们引入均方误差(MSE),也就是各数据偏离真实值的距离平方和的平均数:
E ( k , b ) = 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 E(k,b)=\frac{1}{n}\sum_{i=1}^n(y_i-f(x_i))^2 E(k,b)=n1i=1n(yif(xi))2
其中n为样本数, f ( x i ) f(x_i) f(xi)为预测值, y i y_i yi为实际值。采用平方计算距离是为了消除正负相抵的影响,同时保证导数连续。

要得到均方误差最小的 k , b k,b k,b,要用到高等数学中求二元函数最值的方法:
1.判断函数是否为凹凸函数:设函数 f ( x , y ) f(x,y) f(x,y)在区域 D D D上具有二阶连续偏导数,假定 ( x 0 , y 0 ) (x_0,y_0) (x0y0)为一个驻点,且分别记为: A = f x x ′ ′ ( x 0 , y 0 ) , B = f x y ′ ′ ( x 0 , y 0 ) , C = f y y ′ ′ ( x 0 , y 0 ) A=f_{xx}^{''}(x_0,y_0),B=f_{xy}^{''}(x_0,y_0),C=f_{yy}^{''}(x_0,y_0) A=fxx′′(x0,y0)B=fxy′′(x0,y0)C=fyy′′(x0,y0)
(1)在区域 D D D上 恒 有 A > 0 A > 0 A>0 , 且 A C − B 2 ≥ 0 AC − B^2 \geq 0 ACB20 为凸函 数
(2)在区域 D D D上 恒 有 A < 0 A < 0 A<0 , 且 A C − B 2 ≥ 0 A C − B 2 \geq 0 ACB20 为凹函 数
2. 求函数最值:设 f ( x , y ) f(x,y) f(x,y)是在开区域 D D D内具有连续偏导数的凸(或者凹)函数,其中 ( x 0 , y 0 ) ∈ D (x_0,y_0)\in{D} (x0,y0)D f x ′ ( x 0 , y 0 ) = 0 , f y ′ ( x 0 , y 0 ) = 0 f_{x}^{'}(x_0,y_0)=0,f_{y}^{'}(x_0,y_0)=0 fx(x0,y0)=0,fy(x0,y0)=0 f ( x , y ) f(x,y) f(x,y)在区域 D D D内的最小值(或者最大值)

f ( x i ) f(x_i) f(xi)写成一元回归方程的形式,有:
E ( k , b ) = 1 n ∑ i = 1 n ( y i − k x i − b ) 2 E(k,b)=\frac{1}{n}\sum_{i=1}^n(y_i-kx_i-b)^2 E(k,b)=n1i=1n(yikxib)2
首先证明 J ( k , b ) J(k,b) J(k,b)为凸函数,对其求 k , b k,b k,b的一阶偏导和二阶偏导有:
∂ ∂ k E ( k , b ) = 2 n ∑ i = 1 n ( y i − k x i − b ) ( − x i ) = 2 n [ k ∑ i = 1 n x i 2 − ∑ i = 1 n ( y i − b ) x i ] \frac{\partial }{\partial k}E(k, b)=\frac{2}{n}\sum_{i=1}^n(y_i-kx_i-b)({-x_i})=\frac{2}{n} \Big [k \sum_{i=1}^n{x_i}^2 -\sum_{i=1}^n(y_i-b)x_i \Big ] kE(k,b)=n2i=1n(yikxib)(xi)=n2[ki=1nxi2i=1n(yib)xi]
A = ∂ 2 ∂ k 2 E ( k , b ) = 2 n ∑ i = 1 n x i 2 A=\frac{\partial^2 }{\partial k^2}E(k, b)=\frac{2}{n} \sum_{i=1}^n{x_i}^2 A=k22E(k,b)=n2i=1nxi2
B = ∂ 2 ∂ k ∂ b E ( k , b ) = 2 n ∑ i = 1 n x i B=\frac{\partial^2 }{\partial k\partial b}E(k, b)=\frac{2}{n} \sum_{i=1}^n{x_i} B=kb2E(k,b)=n2i=1nxi
∂ ∂ b E ( k , b ) = 2 n ∑ i = 1 n ( y i − k x i − b ) ( − 1 ) = 2 n ∑ i = 1 n ( k x i + b − y i ) \frac{\partial }{\partial b}E(k, b)=\frac{2}{n}\sum_{i=1}^n(y_i-kx_i-b)(-1)=\frac{2}{n}\sum_{i=1}^n(kx_i+b-y_i) bE(k,b)=n2i=1n(yikxib)(1)=n2i=1n(kxi+byi)
C = ∂ 2 ∂ b 2 E ( k , b ) = 2 n ∑ i = 1 n 1 = 2 C=\frac{\partial^2 }{\partial b^2}E(k, b)=\frac{2}{n}\sum_{i=1}^n 1=2 C=b22E(k,b)=n2i=1n1=2
接着计算 A C − B 2 AC − B^2 ACB2,对于 1 n ∑ i = 1 n x i \frac{1}{n} \sum_{i=1}^n{x_i} n1i=1nxi即为所有因变量 x x x样本的均值,记为 x ‾ \overline x x有:
A C − B 2 = 4 [ 1 n ∑ i = 1 n x i 2 − ( 1 n ∑ i = 1 n x i ) 2 ] = 4 [ 1 n ∑ i = 1 n x i 2 − x ‾ 2 ] = 4 n [ ∑ i = 1 n x i 2 − n x ‾ 2 ] = 4 n [ ∑ i = 1 n x i 2 − ∑ i = 1 n x ‾ 2 ] = 4 n [ ∑ i = 1 n ( x i 2 − x ‾ 2 ) ] AC − B^2=4\Big[\frac{1}{n} \sum_{i=1}^n{x_i}^2-\Big(\frac{1}{n}\sum_{i=1}^n{x_i}\Big)^2\Big] \\ =4\Big[\frac{1}{n} \sum_{i=1}^n{x_i}^2-\overline x^2\Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n{x_i}^2- n\overline x^2 \Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n{x_i}^2- {\sum_{i=1}^n} \overline x^2 \Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2- \overline x^2) \Big] ACB2=4[n1i=1nxi2(n1i=1nxi)2]=4[n1i=1nxi2x2]=n4[i=1nxi2nx2]=n4[i=1nxi2i=1nx2]=n4[i=1n(xi2x2)]
同时有:
∑ i = 1 n x ‾ 2 = n x ‾ 2 = n ⋅ x ‾ ⋅ 1 n ∑ i = 1 n x i = x ‾ ∑ i = 1 n x i = ∑ i = 1 n x ‾ x i \sum_{i=1}^n\overline x^2=n\overline x^2= n \cdot \overline x \cdot \frac{1}{n}\sum_{i=1}^n x_i=\overline x \sum_{i=1}^n x_i=\sum_{i=1}^n \overline x x_i i=1nx2=nx2=nxn1i=1nxi=xi=1nxi=i=1nxxi
可将上述 A C − B 2 AC − B^2 ACB2的公式继续推导有:
A C − B 2 = 4 n [ ∑ i = 1 n ( x i 2 − x ‾ 2 ) ] = 4 n [ ∑ i = 1 n ( x i 2 − x ‾ 2 + x ‾ x i − x ‾ x i ) ] = 4 n [ ∑ i = 1 n ( x i 2 − x ‾ x i + x ‾ 2 − x ‾ x i ) ] = 4 n [ ∑ i = 1 n ( x i − x ‾ ) 2 ] ≥ 0 AC − B^2= \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2- \overline x^2) \Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2 - \overline x^2 + \overline x x_i - \overline x x_i) \Big] \\= \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2 - \overline x x_i + \overline x^2 - \overline x x_i) \Big] \\= \frac{4}{n}\Big[ \sum_{i=1}^n({x_i} - \overline x)^2 \Big] \geq 0 ACB2=n4[i=1n(xi2x2)]=n4[i=1n(xi2x2+xxixxi)]=n4[i=1n(xi2xxi+x2xxi)]=n4[i=1n(xix)2]0
即函数 E ( k , b ) E(k,b) E(k,b) 是关于 k 和 b k和b kb的凸函数得证

令对 b b b的一阶偏导等于0有:
∂ ∂ b E ( k , b ) = 2 n ∑ i = 1 n ( k x i + b − y i ) = 0 \frac{\partial }{\partial b}E(k, b)=\frac{2}{n}\sum_{i=1}^n(kx_i+b-y_i)=0 bE(k,b)=n2i=1n(kxi+byi)=0
即:
∑ i = 1 n ( k x i + b − y i ) = 0 \sum_{i=1}^n(kx_i+b-y_i)=0 i=1n(kxi+byi)=0
∑ i = 1 n b = n b = ∑ i = 1 n ( y i − k x i ) \sum_{i=1}^n b=nb=\sum_{i=1}^n(y_i-kx_i) i=1nb=nb=i=1n(yikxi)
b = 1 n ∑ i = 1 n ( y i − k x i ) = 1 n ∑ i = 1 n y i − k ⋅ 1 n ∑ i = 1 n x i b=\frac{1}{n} \sum_{i=1}^n(y_i-kx_i)=\frac{1}{n} \sum_{i=1}^ny_i- k \cdot \frac{1}{n} \sum_{i=1}^n x_i b=n1i=1n(yikxi)=n1i=1nyikn1i=1nxi
将其中 1 n ∑ i = 1 n x i \frac{1}{n}\sum_{i=1}^nx_i n1i=1nxi 1 n ∑ i = 1 n y i \frac{1}{n}\sum_{i=1}^ny_i n1i=1nyi分别为写为均值的形式,可得:
b = y ‾ − k x ‾ b=\overline y- k \overline x b=ykx

令对 k k k的一阶偏导等于0有:
∂ ∂ k E ( k , b ) = 2 n [ k ∑ i = 1 n x i 2 − ∑ i = 1 n ( y i − b ) x i ] ] = 0 \frac{\partial }{\partial k}E(k, b)=\frac{2}{n} \Big [k \sum_{i=1}^n{x_i}^2 -\sum_{i=1}^n(y_i-b)x_i \Big ]]=0 kE(k,b)=n2[ki=1nxi2i=1n(yib)xi]]=0
k ∑ i = 1 n x i 2 = ∑ i = 1 n y i x i − ∑ i = 1 n b x i k \sum_{i=1}^n{x_i}^2 = \sum_{i=1}^ny_ix_i -\sum_{i=1}^n bx_i ki=1nxi2=i=1nyixii=1nbxi
将上面算出得b的值代入公式有:
k ∑ i = 1 n x i 2 = ∑ i = 1 n y i x i − ∑ i = 1 n [ 1 n ∑ i = 1 n ( y i − k x i ) ] x i = ∑ i = 1 n y i x i − 1 n ∑ i = 1 n x i ∑ i = 1 n ( y i − k x i ) = ∑ i = 1 n y i x i − x ‾ ∑ i = 1 n ( y i − k x i ) = ∑ i = 1 n y i x i − x ‾ ∑ i = 1 n y i + x ‾ ∑ i = 1 n k x i k \sum_{i=1}^n{x_i}^2 = \sum_{i=1}^ny_ix_i -\sum_{i=1}^n \Big [\frac{1}{n} \sum_{i=1}^n(y_i- kx_i)\Big ] x_i \\ =\sum_{i=1}^ny_ix_i -\frac{1}{n}\sum_{i=1}^n x_i \sum_{i=1}^n(y_i- kx_i) \\ =\sum_{i=1}^ny_ix_i - \overline x \sum_{i=1}^n(y_i- kx_i) \\ =\sum_{i=1}^ny_ix_i - \overline x \sum_{i=1}^ny_i + \overline x \sum_{i=1}^n kx_i ki=1nxi2=i=1nyixii=1n[n1i=1n(yikxi)]xi=i=1nyixin1i=1nxii=1n(yikxi)=i=1nyixixi=1n(yikxi)=i=1nyixixi=1nyi+xi=1nkxi
即有:
k ∑ i = 1 n x i 2 − k x ‾ ∑ i = 1 n x i = ∑ i = 1 n y i x i − ∑ i = 1 n y i x ‾ = ∑ i = 1 n y i ( x i − x ‾ ) k \sum_{i=1}^n{x_i}^2- k \overline x \sum_{i=1}^n x_i =\sum_{i=1}^ny_ix_i - \sum_{i=1}^n y_i \overline x =\sum_{i=1}^ny_i(x_i - \overline x) ki=1nxi2kxi=1nxi=i=1nyixii=1nyix=i=1nyi(xix)
k ( ∑ i = 1 n x i 2 − 1 n ∑ i = 1 n x i ∑ i = 1 n x i ) = ∑ i = 1 n y i ( x i − x ‾ ) k (\sum_{i=1}^n{x_i}^2- \frac{1}{n} \sum_{i=1}^n x_i \sum_{i=1}^n x_i) =\sum_{i=1}^ny_i(x_i - \overline x) k(i=1nxi2n1i=1nxii=1nxi)=i=1nyi(xix)
即可推出
k = ∑ i = 1 n y i ( x i − x ‾ ) ∑ i = 1 n x i 2 − 1 n ( ∑ i = 1 n x i ) 2 k =\frac{\sum\limits_{i=1}^ny_i(x_i - \overline x)}{\sum\limits_{i=1}^n{x_i}^2- \frac{1}{n} (\sum\limits_{i=1}^n x_i)^2} k=i=1nxi2n1(i=1nxi)2i=1nyi(xix)

矩方法

另一种求解斜率 k k k和截距 b b b的方法是通过协方差和方差的关系。
因为 Y = k X + b Y=kX+b Y=kX+b,所以
E Y = k E X + b EY=kEX+b EY=kEX+b
可解得:
b = E Y − k E X b=EY−kEX b=EYkEX
又因为 X Y = k X 2 + b X XY=kX^2+bX XY=kX2+bX,所以 E X Y = k E X 2 + b E X EXY=kEX^2+bEX EXY=kEX2+bEX
联立两个式子可得:
k = E X Y − E X E Y E X 2 − ( E X ) 2 = C O V ( X , Y ) D X k=\frac{EXY-EXEY}{EX^2-(EX)^2}=\frac{COV(X,Y)}{DX} k=EX2(EX)2EXYEXEY=DXCOV(X,Y)

最大似然法

最大似然估计的思想是将抽出的样本视为从总体中被抽中的概率最大的情况,所以这些样本的联合分布密度或联合概率分布为最大值时,模型的估计值最准确。具体原理可参考https://blog.csdn.net/qq_42692386/article/details/139919043
对于线性回归模型 y = b + k x + ε y=b+kx+\varepsilon y=b+kx+ε,假设残差 ε \varepsilon ε服从均值为0、方差为 σ 2 \sigma ^{2} σ2正态分布, x i x_{i} xi是与 y i y_{i} yi相关的非随机样本,则 y i ∼ N ( b + k x i , σ 2 ) y_{i}\sim N(b+kx_{i},\sigma ^{2}) yiN(b+kxi,σ2) y i y_{i} yi的分布密度函数为:
f i ( y i ) = 1 2 π σ e x p [ − 1 2 σ 2 [ y i − ( b + k x i ) ] 2 ] f_{i}\left ( y_{i} \right )=\frac{1}{\sqrt{2\pi}\sigma }exp\left [ -\frac{1}{2\sigma ^{2}}\left [ y_{i}-(b +kx_{i}) \right ]^{2} \right ] fi(yi)=2π σ1exp[2σ21[yi(b+kxi)]2]

样本 y 1 , y 2 , . . . , y n y_{1},y_{2},...,y_{n} y1,y2,...,yn的联合密度分布函数为:
L ( y 1 , y 2 , . . . , y n ; k , b ) = ∏ i = 1 n f i ( y i ) = ( 2 π σ 2 ) − n 2 e x p [ − 1 2 σ 2 ∑ i = 1 n [ y i − ( b + k x i ) ] 2 ] L(y_{1},y_{2},...,y_{n};k,b)=\prod_{i=1}^{n}f_{i}\left ( y_{i} \right )=(2 \pi \sigma^2)^{-\frac{n}{2}}exp\left [ -\frac{1}{2\sigma ^{2}}\sum_{i=1}^{n} \left [ y_{i}-(b+kx_{i}) \right ]^{2} \right ] L(y1,y2,...,yn;k,b)=i=1nfi(yi)=(2πσ2)2nexp[2σ21i=1n[yi(b+kxi)]2]

取对数后:
l n ( L ) = − n 2 l n ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n [ y i − b − k x i ] 2 ln(L)=-\frac{n}{2}ln(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n}[y_{i}-b-kx_{i}]^2 ln(L)=2nln(2πσ2)2σ21i=1n[yibkxi]2

等价于求 ∑ i = 1 n [ y i − b + k x i ] 2 \sum_{i=1}^{n}[y_{i}-b+kx_{i}]^2 i=1n[yib+kxi]2 的极小值,回到上面讲到的最小二乘法的原理。整理后即可得到结果

在这里插入图片描述

posted @   Smilecoc  阅读(10)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· 单线程的Redis速度为什么快?
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
点击右上角即可分享
微信分享提示