L0, L1, L2, p范数及其在损失函数中的使用

对于向量 \(x=[x_​1,\;x_​2,\;...,\;x_​n]\),各范数定义如下所示

  • p-范数:\(\left \| X \right \|_p = (\left| x_1 \right|^p + \left| x_2 \right|^p + ... + \left| x_n \right|^p)^\frac{1}{p}\)
  • L1范数,p-范数中p=1的情况,即各元素绝对值之和:\(\left \| X \right \|_1 = (\left| x_1 \right| + \left| x_2 \right| + ... + \left| x_n \right|)\)
  • L2范数,p-范数中p=2的情况,即各元素平方和再开平方:\(\left \| X \right \|_2 = (\left| x_1 \right|^2 + \left| x_2 \right|^2 + ... + \left| x_n \right|^2)^\frac{1}{2}\)
  • L0范数:指向量中非0元素的个数。
  • 无穷范数:指向量中元素绝对值中的最大值。

作为损失函数时:

  • L2范数损失函数,也被称为最小平方误差(LSE)。它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的差值的平方和最小化。一般回归问题会使用此损失,离群点对次损失影响较大。
  • L1损失函数,也被称为最小绝对值偏差(LAD),绝对值损失函数(LAE)。总的说来,它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的绝对差值的总和最小化。
  • L1损失函数相比于L2损失函数的鲁棒性更好。因为L2范数的平方操作使模型的误差会比L1范数的计算结果大的多,模型需要调整以最小化误差,当遇到异常样本时便使得训练模型的方向偏离目标。
  • L0范数本身是特征选择的最直接最理想的方案,最小化L0范数可以寻找最少最优的稀疏特征项,但它的最小化在实际应用中是NP难问题。因此实际应用中通常使用L1来得到L0的最优凸近似。
  • L2相对于L1具有更为平滑的特性,当遇到两个对预测有帮助的特征时,L1倾向于选择较大者,L2倾向把两者结合起来。

本文作者:心有所向,日复一日,必有精进

本文链接:https://www.cnblogs.com/Stareven233/p/16393315.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   NoNoe  阅读(1076)  评论(0编辑  收藏  举报
历史上的今天:
2021-06-20 fzu2021人机交互技术笔记
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 Relaxロウきゅーぶ 渡辺剛
  2. 2 カントリーマーチ 栗コーダーカルテット
  3. 3 BGM-M7 かみむら周平
  4. 4 八百万の風が吹く Foxtail-Grass Studio
  5. 5 雲流れ Foxtail-Grass Studio
  6. 6 Melody 梶浦由記
  7. 7 ロック风アレンジ Angel Beats
  8. 8 ヨスガノソラ メインテーマ -遠い空へ- Bruno Wen-li
  9. 9 Servante du feu Matthieu Ladouce
  10. 10 Lost my pieces (Piano Ver.) 橋本由香利
  11. 11 潮鳴り 折戸伸治
  12. 12 雪風 Foxtail-Grass Studio
  13. 13 Bloom of Youth 清水淳一
  14. 14 落月随山隐 饭碗的彼岸,夜莺与玫瑰
  15. 15 Autumn Journey Eric Chiryoku
  16. 16 Alpha C418
  17. 17 Money之歌 神楽Mea
カントリーマーチ - 栗コーダーカルテット
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

暂无歌词