3.0 Linear Regression基础-一元线性回归
前言:
这一节,作为线性回归的基础,我们好好从统计的角度讨论一下线性回归。机器学习的算法,大多是以回归为基础,无非是加以修改以适应于相应场景罢了。
1. 随机变量,噪声
(1)模型
x不是随机变量。
是噪声,记录的所有随机因素,是随机变量。这里我们假设服从高斯分布
y是随机变量,因为取决于。
(2)训练集得到回归模型,是随机变量。
因为系数来自于训练集,训练集的y是随机变量,所以系数是随机变量。
2. 训练误差
如何衡量拟合的好坏,我们可以这样:是随机变量,我们不知道分布。就用样本来估计:
3. 最小二乘法求解
假设模型是
(1)目标:
(2)解:,其中
(3)注意,是来自于样本的。