线性回归原理推导与应用（一）：一元线性回归原理

1 数学定义

线性回归是一种使用特征属性的线性组合来预测响应的方法，通俗一点说线性是指每个自变量（或者说特征） $x$ 与因变量（或者说结果） $y$ 的结果是线性的关系，回归就是从离散的点中拟合出这个函数的过程。它的目标是找到一个线性函数，是这个函数尽可能的去拟合样本点，以尽可能准确地描述自变量（或者说特征） $x$ 与因变量（或者说结果） $y$ 之间的关系，使得预测值与真实值之间的误差最小化。
在这里插入图片描述
在数学上，线性回归要找的这个线性函数叫回归方程，我们初高中就学过这种类型的函数 $y = b + k x$ 。这种只有一个自变量 $x$ ，也就是一元线性回归。
需要注意的一点是，一般在说一元线性回归模型的时候通用形式为 $y=b+kx+\varepsilon$ ，其中 $\varepsilon$ 表示残差，表示线性模型中无法解释的部分。而求出来的回归方程就不包含这个残差

2 一元线性回归模型的参数估计理论推导

一元线性回归模型的表达式中有两个待确定的参数：斜率 $k$ 和截距 $b$ ,如何确定这两个参数，从而使得到的一元线性回归方程能更好的拟合已有的数据呢？一般的方法有最小二乘法、矩方法和极大似然方法。

最小二乘法

什么样的模型是好的呢？预测值与真实值之间的差距越小越好，距离越小，代表我们的模型效果越好，所以最小二乘法就是计算每一个样本点的实际值与预测值之间的差距并加总并求最小时的斜率 $k$ 和截距 $b$
首先为了衡量模型的性好坏，我们引入均方误差(MSE),也就是各数据偏离真实值的距离平方和的平均数：
$E(k,b)=\frac{1}{n}\sum_{i=1}^n(y_i-f(x_i))^2$
其中n为样本数， $f(x_i)$ 为预测值， $y_i$ 为实际值。采用平方计算距离是为了消除正负相抵的影响，同时保证导数连续。

要得到均方误差最小的 $k, b$ ，要用到高等数学中求二元函数最值的方法：
1.判断函数是否为凹凸函数：设函数 $f (x, y)$ 在区域 $D$ 上具有二阶连续偏导数，假定 $x_0，y_0)$ 为一个驻点，且分别记为： $A=f_{xx}^{''}(x_0,y_0)，B=f_{xy}^{''}(x_0,y_0)，C=f_{yy}^{''}(x_0,y_0)$
（1）在区域 $D$ 上恒有 $A > 0$ , 且 $B^2 \geq 0$ 为凸函数
（2）在区域 $D$ 上恒有 $A < 0$ , 且 $\geq 0$ 为凹函数
2. 求函数最值：设 $f (x, y)$ 是在开区域 $D$ 内具有连续偏导数的凸（或者凹）函数，其中 $(x_0,y_0)\in{D}$ 且 $f_{x}^{'}(x_0,y_0)=0,f_{y}^{'}(x_0,y_0)=0$ 为 $f (x, y)$ 在区域 $D$ 内的最小值（或者最大值）

把 $f(x_i)$ 写成一元回归方程的形式，有：
$E(k,b)=\frac{1}{n}\sum_{i=1}^n(y_i-kx_i-b)^2$
首先证明 $J (k, b)$ 为凸函数，对其求 $k, b$ 的一阶偏导和二阶偏导有：
$\frac{\partial }{\partial k}E(k, b)=\frac{2}{n}\sum_{i=1}^n(y_i-kx_i-b)({-x_i})=\frac{2}{n} \Big [k \sum_{i=1}^n{x_i}^2 -\sum_{i=1}^n(y_i-b)x_i \Big ]$
$A=\frac{\partial^2 }{\partial k^2}E(k, b)=\frac{2}{n} \sum_{i=1}^n{x_i}^2$
$B=\frac{\partial^2 }{\partial k\partial b}E(k, b)=\frac{2}{n} \sum_{i=1}^n{x_i}$
$\frac{\partial }{\partial b}E(k, b)=\frac{2}{n}\sum_{i=1}^n(y_i-kx_i-b)(-1)=\frac{2}{n}\sum_{i=1}^n(kx_i+b-y_i)$
$C=\frac{\partial^2 }{\partial b^2}E(k, b)=\frac{2}{n}\sum_{i=1}^n 1=2$
接着计算 $AC − B^2$ ，对于 $\frac{1}{n} \sum_{i=1}^n{x_i}$ 即为所有因变量 $x$ 样本的均值,记为 $\overline x$ 有：
$B^2=4\Big[\frac{1}{n} \sum_{i=1}^n{x_i}^2-\Big(\frac{1}{n}\sum_{i=1}^n{x_i}\Big)^2\Big] \\ =4\Big[\frac{1}{n} \sum_{i=1}^n{x_i}^2-\overline x^2\Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n{x_i}^2- n\overline x^2 \Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n{x_i}^2- {\sum_{i=1}^n} \overline x^2 \Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2- \overline x^2) \Big]$
同时有：
$\sum_{i=1}^n\overline x^2=n\overline x^2= n \cdot \overline x \cdot \frac{1}{n}\sum_{i=1}^n x_i=\overline x \sum_{i=1}^n x_i=\sum_{i=1}^n \overline x x_i$
可将上述 $AC − B^2$ 的公式继续推导有：
$B^2= \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2- \overline x^2) \Big] \\ = \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2 - \overline x^2 + \overline x x_i - \overline x x_i) \Big] \\= \frac{4}{n}\Big[ \sum_{i=1}^n({x_i}^2 - \overline x x_i + \overline x^2 - \overline x x_i) \Big] \\= \frac{4}{n}\Big[ \sum_{i=1}^n({x_i} - \overline x)^2 \Big] \geq 0$
即函数 $E (k, b)$ 是关于 $k 和 b$ 的凸函数得证

令对 $b$ 的一阶偏导等于0有：
$\frac{\partial }{\partial b}E(k, b)=\frac{2}{n}\sum_{i=1}^n(kx_i+b-y_i)=0$
即：
$\sum_{i=1}^n(kx_i+b-y_i)=0$
$\sum_{i=1}^n b=nb=\sum_{i=1}^n(y_i-kx_i)$
$b=\frac{1}{n} \sum_{i=1}^n(y_i-kx_i)=\frac{1}{n} \sum_{i=1}^ny_i- k \cdot \frac{1}{n} \sum_{i=1}^n x_i$
将其中 $\frac{1}{n}\sum_{i=1}^nx_i$ 和 $\frac{1}{n}\sum_{i=1}^ny_i$ 分别为写为均值的形式，可得：
$b=\overline y- k \overline x$

令对 $k$ 的一阶偏导等于0有：
$\frac{\partial }{\partial k}E(k, b)=\frac{2}{n} \Big [k \sum_{i=1}^n{x_i}^2 -\sum_{i=1}^n(y_i-b)x_i \Big ]]=0$
$\sum_{i=1}^n{x_i}^2 = \sum_{i=1}^ny_ix_i -\sum_{i=1}^n bx_i$
将上面算出得b的值代入公式有：
$\sum_{i=1}^n{x_i}^2 = \sum_{i=1}^ny_ix_i -\sum_{i=1}^n \Big [\frac{1}{n} \sum_{i=1}^n(y_i- kx_i)\Big ] x_i \\ =\sum_{i=1}^ny_ix_i -\frac{1}{n}\sum_{i=1}^n x_i \sum_{i=1}^n(y_i- kx_i) \\ =\sum_{i=1}^ny_ix_i - \overline x \sum_{i=1}^n(y_i- kx_i) \\ =\sum_{i=1}^ny_ix_i - \overline x \sum_{i=1}^ny_i + \overline x \sum_{i=1}^n kx_i$
即有：
$\sum_{i=1}^n{x_i}^2- k \overline x \sum_{i=1}^n x_i =\sum_{i=1}^ny_ix_i - \sum_{i=1}^n y_i \overline x =\sum_{i=1}^ny_i(x_i - \overline x)$
$(\sum_{i=1}^n{x_i}^2- \frac{1}{n} \sum_{i=1}^n x_i \sum_{i=1}^n x_i) =\sum_{i=1}^ny_i(x_i - \overline x)$
即可推出
$=\frac{\sum\limits_{i=1}^ny_i(x_i - \overline x)}{\sum\limits_{i=1}^n{x_i}^2- \frac{1}{n} (\sum\limits_{i=1}^n x_i)^2}$

矩方法

另一种求解斜率 $k$ 和截距 $b$ 的方法是通过协方差和方差的关系。
因为 $Y = k X + b$ ，所以
$E Y = k EX + b$
可解得：
$b = E Y - k EX$
又因为 $XY=kX^2+bX$ ，所以 $EXY=kEX^2+bEX$
联立两个式子可得：
$k=\frac{EXY-EXEY}{EX^2-(EX)^2}=\frac{COV(X,Y)}{DX}$

最大似然法

最大似然估计的思想是将抽出的样本视为从总体中被抽中的概率最大的情况，所以这些样本的联合分布密度或联合概率分布为最大值时，模型的估计值最准确。具体原理可参考https://blog.csdn.net/qq_42692386/article/details/139919043
对于线性回归模型 $y=b+kx+\varepsilon$ ，假设残差 $\varepsilon$ 服从均值为0、方差为 $\sigma ^{2}$ 正态分布， $x_{i}$ 是与 $y_{i}$ 相关的非随机样本，则 $y_{i}\sim N(b+kx_{i},\sigma ^{2})$ ， $y_{i}$ 的分布密度函数为：
$f_{i}\left ( y_{i} \right )=\frac{1}{\sqrt{2\pi}\sigma }exp\left [ -\frac{1}{2\sigma ^{2}}\left [ y_{i}-(b +kx_{i}) \right ]^{2} \right ]$

样本 $y_{1},y_{2},...,y_{n}$ 的联合密度分布函数为：
$L(y_{1},y_{2},...,y_{n};k,b)=\prod_{i=1}^{n}f_{i}\left ( y_{i} \right )=(2 \pi \sigma^2)^{-\frac{n}{2}}exp\left [ -\frac{1}{2\sigma ^{2}}\sum_{i=1}^{n} \left [ y_{i}-(b+kx_{i}) \right ]^{2} \right ]$