随笔- 54  文章- 0  评论- 1  阅读- 16787 

https://zhuanlan.zhihu.com/p/56185913

[公式] 正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,用于特征筛选;

[公式] 正则化可以防止过拟合,提升模型的泛化能力。

 

假设待优化函数为 [公式] ,其中 [公式] ,那么优化问题可以转化为求

[公式]

  • [公式] 正则化,即对参数 [公式] 加上 [公式] 范数约束

[公式]

  • [公式] 正则化,即对参数 [公式] 加上 [公式] 范数的平方约束

 

[公式]

 

彩色公式 

\color{颜色名称} {需要渲染的公式}

 

“L2正则化是指权值向量w 中各个元素的平方和然后再求平方根。”这句话不准确,

二范数才是 向量w 中各个元素的平方和然后再求平方根,而L2正则化其实是对二范数求平方

正则化的作用   

https://zhuanlan.zhihu.com/p/356234693

正则化的主要作用是防止过拟合,对模型添加正则化项可以限制模型的复杂度,使得模型在复杂度和性能达到平衡。
常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。
所谓『惩罚』是指对损失函数中的某些参数做一些限制。
L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归。
 
但是使用正则化来防止过拟合的原理是什么?L1和L2正则化有什么区别呢?
 
下面看李飞飞在CS2312中给的更为详细的解释:
  • L2正则化可以直观理解为它对于大数值的权重向量进行严厉惩罚,倾向于更加分散的权重向量
由于输入和权重之间的乘法操作,这样就有了一个优良的特性:使网络更倾向于使用所有输入特征,而不是严重依赖输入特征中某些小部分特征。
L2惩罚倾向于更小更分散的权重向量,这就会鼓励分类器最终将所有维度上的特征都用起来,而不是强烈依赖其中少数几个维度。。这样做可以提高模型的泛化能力,降低过拟合的风险。
 
  • L1正则化有一个有趣的性质,它会让权重向量在最优化的过程中变得稀疏(即非常接近0)。也就是说,使用L1正则化的神经元最后使用的是它们最重要的输入数据的稀疏子集,同时对于噪音输入则几乎是不变的了。
相较L1正则化,L2正则化中的权重向量大多是分散的小数字
在实践中,如果不是特别关注某些明确的特征选择,一般说来L2正则化都会比L1正则化效果好。
 posted on   Real_Yuan  阅读(75)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示