机器学习中的正则化

1. 正则化概述（Regularization）

监督学习可以简单的理解为在最小化loss function 的同时，保证模型的复杂度尽可能的低，防止出现过拟合（overfitting）。常用的loss函数有square loss(Regression)，Hinge Loss(SVM)，exp-loss(adaBoost) 等。关于正则化（Regularization），它一方面可用于控制模型的复杂度，提高模型的范化能力；另一方面还可以用于约束模型的特性，例如稀疏、平滑特性等。在数学上公式体现为在最优化loss Funcition后面加上正则化项（regularizer）也称为惩罚项（penalty term），用于限制模型参数w。实际中常使用模型参数w的范数来约束w，0范数、1范数、2范数分别称为L0正则化、L1正则化、L2正则化。

2. L0、L1正则化

向量的0范数是指向量中非零元素的个数。L0正则化的值是模型中非零参数的个数，L0正则化可以实现模型参数的的稀疏化。模型参数稀疏化使得模型能自动的选择比较重要的特征属性进行yi的预测，去掉没用的信息项。模型自动选择的比较少的特征属性一般会有比较好的解释性，例如1000维的患病样本，到底是怎么影响患病的？1000维的解释性远不如模型参数稀疏化后选择的几个重要的维度。遗憾的是，L0正则化是个NP难问题，很难求解，这才有了我们常见的L1正则化，L1也能达到模型参数稀疏化的效果。向量的1范数是指向量中所有元素的绝对值之和。L1正则化用于替代L0正则化，也称为lasso Regularizer。

3. L1、L2正则化

向量的2范数是指向量的模值||W|，向量所有元素的平方和然后求均值。L2正则项不是像L1正则化中通过稀疏模型参数来降低模型复杂度，而是通过减少模型参数的权值来控制过拟合的效果，因此L2正则化也被称为“权值衰减 weight decay”，在回归分析中也有人称为“岭回归 Ridge Regression”。L2正则化中模型参数W中每个元素都很小，接近于0，一般不会等于0。在实际中正则化中感觉使用L2的会更多一些，因为L1 会趋向于产生少量的有效特征项，L2会选择更多的特征。在所有特征中只有少量特征其重要作用的情况，可以选择lasso来自动选择比较合适的特征属性。而如果所有的特征中，大部分的特征都能起到一定的作用，还是使用L2会比较合适。

参考资料:http://blog.csdn.net/vividonly/article/details/50723852

http://blog.csdn.net/zouxy09/article/details/24971995

http://www.cnblogs.com/jianxinzhou/p/4083921.html

posted @ 2016-04-15 20:53 wxquare 阅读(2993) 评论(0) 收藏举报

刷新页面返回顶部

wxquare的学习笔记

机器学习中的正则化

公告