最小二乘法-公式推导
基本思想
求出这样一些未知参数使得样本点和拟合线的总误差(距离)最小
最直观的感受如下图(图引用自知乎某作者)
而这个误差(距离)可以直接相减,但是直接相减会有正有负,相互抵消了,所以就用差的平方
推导过程
1 写出拟合方程
\(y = a+bx\)
2 现有样本\((x_1, y_1),(x_2, y_2)...(x_n, y_n)\)
3 设\(d_i\)为样本点到拟合线的距离,即误差
\(d_i=y_i-(a+bx_i)\)
4 设\(D\)为差方和(为什么要取平方前面已说,防止正负相互抵消)
\(D=\sum\limits_{i=1}^{n}d_i^2=\sum\limits_{i=1}^{n}(y_i-a-bx_i)^2\)
5 根据一阶导数等于0,二阶大于等于0(证明略)求出未知参数
对a求一阶偏导
\(
\begin{aligned}
\frac{\partial D}{\partial a}
&=\sum\limits_{i=1}^{n}2(y_i-a-bx_i)(-1)\\
&=-2\sum\limits_{i=1}^{n}(y_i-a-bx_i)\\
\end{aligned}
\)
\(
\begin{aligned}
&=-2(\sum\limits_{i=1}^{n}y_i-\sum\limits_{i=1}^{n}a-b\sum\limits_{i=1}^{n}x_i)\\
&=-2(n\bar{y}-na-nb\bar{x})
\end{aligned}
\)
对b求一阶偏导
\(
\begin{aligned}
\frac{\partial D}{\partial b}
&=\sum\limits_{i=1}^{n}2(y_i-a-bx_i)(-x_i)\\
&=-2\sum\limits_{i=1}^{n}(x_iy_i-ax_i-bx_i^2)\\
\end{aligned}
\)
\(
\begin{aligned}
&=-2(\sum\limits_{i=1}^{n}x_iy_i-a\sum\limits_{i=1}^{n}x_i-b\sum\limits_{i=1}^{n}x_i^2)\\
&=-2(\sum\limits_{i=1}^{n}x_iy_i-na\bar{x}-b\sum\limits_{i=1}^{n}x_i^2)
\end{aligned}
\)
令偏导等于0得
\(-2(n\bar{y}-na-nb\bar{x})=0\)
\(=> \color{red}{a=\bar{y}-b\bar{x}}\)
\(-2(\sum\limits_{i=1}^{n}x_iy_i-na\bar{x}-b\sum\limits_{i=1}^{n}x_i^2)=0\)并将\(a=\bar{y}-b\bar{x}\)带入化简得
\(=>\sum\limits_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}+nb\bar{x}^2-b\sum\limits_{i=1}^{n}x_i^2=0\)
\(=>\sum\limits_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}=b(\sum\limits_{i=1}^{n}x_i^2-n\bar{x}^2)\)
\(=>b=\frac{\sum\limits_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}}{\sum\limits_{i=1}^{n}x_i^2-n\bar{x}^2}\)
因为\(\require{cancel}\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})=\sum\limits_{i-1}^{n}(x_iy_i-\bar{x}y_i-x_i\bar{y}+\bar{x}\bar{y})=\sum\limits_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}-\cancel{n\bar{x}\bar{y}}+\cancel{n\bar{x}\bar{y}}\)
\(\sum\limits_{i=1}^{n}(x_i-\bar{x})^2=\sum\limits_{i-1}^{n}(x_i^2-2\bar{x}x_i+\bar{x}^2)=\sum\limits_{i=1}^{n}x_i^2-2n\bar{x}^2+n\bar{x}^2=\sum\limits_{i=1}^{n}x_i^2-n\bar{x}^2\)
所以将其带入上式得\(\color{red}{b=\frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}}\)