【笔记】简谈L1正则项L2正则和弹性网络
L1,L2,以及弹性网络
前情提要:
模型泛化与岭回归与LASSO
正则
ridge和lasso的后面添加的式子的格式上其实和MSE,MAE,以及欧拉距离和曼哈顿距离是非常像的
虽然应用场景不同,但是其表示出来的数学思想是非常相近的
对明科夫斯基距离进行泛化可以得到
对于任何向量x,都可以求其第i个维度的p次方的和在开p次方根,在数学上通常称其为Lp范数
(明科夫斯基距离:)
对于ridge来说,写成这种样式,一般称其为L2正则项
对于LASSO来说,写成这种样式,一般称其为L1正则项
这样就可以说是,对于岭回归来说,就是为损失函数添加一个L2正则项,对于LASSO来说,就是为损失函数添加一个L1正则项
实际上还存在一个L0正则项,为损失函数添加一个项,这个项要让theta的个数尽可能的小(本质是一个离散项)
真的要使用的话,实际上用L1取代,因为L0正则的优化是一个NP难的问题
弹性网 Elastic Net
结合这两种方式,在均方误差后面添加一个L1正则项再添加一个L2正则项,其中引入一个新的超参数r来表示这两种正则项的比例是多少
一般使用的时候,先使用岭回归,但是如果特征数特别大的话,就应该优先选择弹性网,因为弹性网结合了岭回归的计算的优点,又结合了LASSO的数据筛选的优势
您能读到这儿,我呢是发自真心的感谢您,若要转载,还望请您带上链接