最直白的线性回归,多元线性回归,正则化项的理解
版权声明:本文为博主原创文章,转载或者引用请务必注明作者和出处,谢谢!
线性回归:训练数据中特征是单个,但特征值可以是多个
y=wx+b (w: 是单个值)
多元线性回归:训练数据中特征数量是多个
y=W1X1+W2X2+W3X3+...+b
或表示为:
y=Wx+b(W:w1,w2,w3.....组成的向量的转置)
模型训练为的就是确定参数W的取值:
但是,当测试数据中,特征数量比样本数还多的多的时候,可能产生多组解(解线性方程组的时候,因变量过多,则有可能解出多组解),多组解如何选择呢?取决余算法的归纳偏好,所有就有了正则化。
正则化项分:L1范数和L2范数
在求损失函数:均分误差的最小值时+正则化项 =========》 进而可以降低过拟合的风险
L1 L2都可以降低过拟合风险,但L1有个额外的优点:更容易获得稀疏解,就是求得的W向量中会有更少的非零值
有了稀疏解有什么好处呢?
它表示了你训练时的所有特征并没有都用到你得到的模型中,仅有W(表示:向量)对应的非零值的特征才出现在最终模型中=======》这就起到了特征选择的作用(也就降低了过拟合的风险)