【机器学习】线性回归

1.概念
2.理论

1.概念

线性回归（Linear Regression）是一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。

通俗解释：

举个例子，银行现在有很多贷款客户，这些客户在贷款的时候，银行保存了他们的年龄、工资月收入、资产信息（是否有房、有车、理财产品等），那么我们称这这些信息为特征值。假如我现在去银行贷款，那么银行就可以通过已有客户的这些特征信息建立数据模型来预测我在该银行到底能贷多少钱。这里的数据模型指的就是线性回归。

假设X1表示工资，X2表示年龄，那么Y就表示银行可以给我贷款的额度。这样我们就可以拟合出一条曲线，如下图
图1

2.理论

2.1 利用矩阵知识对线性公式整合

假设$\theta_1$是年龄，$\theta_2$是工资，那么拟合的平面为：

我们可以假定上述$\theta_0$使我们构建的虚拟特征值，其值全部为1，如下图：

那么$\theta_0$与1的乘积永远是$\theta_0$，所以上述式子可以写成：

将式子简化后，得到（第二个等式是根据矩阵乘法转换后得到）

2.2 误差项分析

（1）真实值和预测值之间肯定是要存在差异的(用$\varepsilon$来表示误差)
（2）对于每个样本，存在以下公式

通俗解释：每个人去银行贷款的时候，有的人贷的多，有的人贷的少，预测值与真实值之间都会存在一些差距的。上面公式（2）的意思是，针对去银行贷款的每个客户，银行都会给他一个贷款额度，也就是公式中的$ y^{(i)} $，那么

表示权重参数与特征参数的组合，这个组合就是预测值，那么 $ \varepsilon^{i} $则是真实值与预测值之间的差距。这个误差有可能是正的，也有可能是负的。可以参照图1理解。

（3）误差$ \varepsilon^{i} $是独立并且具有相同的分布，并且服从均值为0方差为$ \theta^2 $的高斯分布
- 独立：每一个样本都是独立的。例如：去银行贷款的人，是独立的，银行并不会因为他是皇亲国戚就多给他贷款
- 同分布：这里所谓的同分布指的是，研究的个体必须来自同一个地方，好比我们现在研究建设银行的贷款，我们不能一半用建设银行的客户，一半用工商银行的客户，那将毫无意义。
- 高斯分布：高斯分布也是正态分布。银行给每个客户的贷款额度不一样，有可能张三多点，李四多点，在实际情况下，银行不可能给每个人都多贷款，也不可能给每个人都少贷。多贷跟少贷的客户在绝大多数情况下，都是分布差不多的。高斯分布就是指在绝大多数情况下，在均值附近浮动不会太大，极小情况下浮动会比较大。从下图可以看出