机器学习中的范数规则化
参考:http://blog.csdn.net/zouxy09/article/details/24971995/
http://blog.csdn.net/zouxy09/article/details/24972869
L0范数:向量中非0元素的个数,以L0范数正则化是希望更多的W为0。
L1范数:向量中各个元素的绝对值之和。L0、L1都能实稀疏,但是
(1)L0范数很难优化
(2)L1范数是L0范数的最优凸近似,且比L0更容易优化求解。
L2范数:向量各元素的平方和,然后求平方根。与L1范数不同,L2使每个元素都
很小,而不是等于0(?),可以防止过拟合。
L2与L1的区别
(1)下降速度:优化时下降的坡度不同;
(2)模型空间的限制:L1会趋向于选取少量特征,其他特征都是0;而L2会选择
更多的特征,这些特征都会接近于0。所以L1-regularization会产生稀释性,而L2不会。