线性回归
原理推导
根据特征预测结果,找一条最合适的线来拟合数据。
拟合的平面(θ0 是偏置项):hθ(x)=θ0+θ1x1+θ2x2
设 x0=1 →x0⋅θ0=θ0 整合得:hθ(x)=∑ni=0θixi=θTx
误差
真实值与预测值之间得误差用 ε 表示,对于每个样本:
y(i)=θTx(i)+ε(i)(1)
ε(i) 是独立且具有相同的分布,并且服从均值为0方差为 θ2 的高斯分布。
📐高斯分布概率密度函数:
f(x)=1√2πσexp(−(x−μ)22σ2)
误差服从高斯分布:
p(ϵ(i))=1√2πσexp(−(ϵ(i))22σ2)(2)
将(1)代入(2)得:
p(y(i)|x(i);θ)=1√2πσexp⎛⎝−(y(i)−θTx(i))22σ2⎞⎠
θ 与 x(i) 组合的预测值接近真实值 y(i) 的概率越高越好。
似然函数:
L(θ)=m∏i=1p(y(i)|x(i);θ)=m∏i=11√2πσexp⎛⎝−(y(i)−θTx(i))22σ2⎞⎠
📐极大似然估计的意义:刻画参数 θ 与数据的匹配程度。
📌图解联合概率密度、边缘概率密度、条件概率密度之间的关系
累乘求结果太难,取对数转换为求和。
对数似然函数:
logL(θ)=logm∏i=11√2πσexp⎛⎝−(y(i)−θTx(i))22σ2⎞⎠
下图截自统计计算:似然函数

展开化简:
m∑i=1log1√2πσexp⎛⎝−(y(i)−θTx(i))22σ2⎞⎠=mlog1√2πσ−1σ2⋅12m∑i=1(y(i)−θTx(i))2
目的是让概率越大越好,减号前是常数,减号后的值恒正,值越小越好。
步骤如下:
- 目标函数/损失函数/loss function(最小二乘法):
J(θ)=12m∑i=1(y(i)−θTx(i))2=12m∑i=1(hθ(x(i))−y(i))2=12(Xθ−Y)T(Xθ−Y)
其中 hθ(x(i))=Xθ 为 m×1 的向量,θ 为 n×1 的向量,X 为 m×n 的矩阵,Y 是 m×1 向量。m 代表样本的个数,n 代表样本的特征数。
2. 对 θ 求偏导:
∂∂θJ(θ)=∂∂θ(12(Xθ−Y)T(Xθ−Y))=∂∂θ(12(θTXT−YT)(Xθ−Y))=∂∂θ(12(θTXTXθ−θTXTY−YTXθ+YTY))=12(2XTXθ−XTY−(YTX)T)=XTXθ−XTY=XT(Xθ−Y)
- 设偏导 ∂∂θJ(θ)=0 取极值,整理得:
θ=(XTX)−1XTY
下图转自多项式最小二乘法拟合的python代码实现
