【笔记】简谈L1正则项L2正则和弹性网络

L1,L2,以及弹性网络

前情提要:
模型泛化与岭回归与LASSO

正则

ridge和lasso的后面添加的式子的格式上其实和MSE,MAE,以及欧拉距离和曼哈顿距离是非常像的

虽然应用场景不同,但是其表示出来的数学思想是非常相近的

对明科夫斯基距离进行泛化可以得到

对于任何向量x,都可以求其第i个维度的p次方的和在开p次方根,在数学上通常称其为Lp范数

(明科夫斯基距离:

对于ridge来说,写成这种样式,一般称其为L2正则项

对于LASSO来说,写成这种样式,一般称其为L1正则项

这样就可以说是,对于岭回归来说,就是为损失函数添加一个L2正则项,对于LASSO来说,就是为损失函数添加一个L1正则项

实际上还存在一个L0正则项,为损失函数添加一个项,这个项要让theta的个数尽可能的小(本质是一个离散项)

真的要使用的话,实际上用L1取代,因为L0正则的优化是一个NP难的问题

弹性网 Elastic Net

结合这两种方式,在均方误差后面添加一个L1正则项再添加一个L2正则项,其中引入一个新的超参数r来表示这两种正则项的比例是多少

一般使用的时候,先使用岭回归,但是如果特征数特别大的话,就应该优先选择弹性网,因为弹性网结合了岭回归的计算的优点,又结合了LASSO的数据筛选的优势

posted @ 2021-01-21 23:00  DbWong_0918  阅读(496)  评论(0编辑  收藏  举报