L0, L1, L2, p范数及其在损失函数中的使用
对于向量 \(x=[x_1,\;x_2,\;...,\;x_n]\),各范数定义如下所示
- p-范数:\(\left \| X \right \|_p = (\left| x_1 \right|^p + \left| x_2 \right|^p + ... + \left| x_n \right|^p)^\frac{1}{p}\)
- L1范数,p-范数中p=1的情况,即各元素绝对值之和:\(\left \| X \right \|_1 = (\left| x_1 \right| + \left| x_2 \right| + ... + \left| x_n \right|)\)
- L2范数,p-范数中p=2的情况,即各元素平方和再开平方:\(\left \| X \right \|_2 = (\left| x_1 \right|^2 + \left| x_2 \right|^2 + ... + \left| x_n \right|^2)^\frac{1}{2}\)
- L0范数:指向量中非0元素的个数。
- 无穷范数:指向量中元素绝对值中的最大值。
作为损失函数时:
- L2范数损失函数,也被称为最小平方误差(LSE)。它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的差值的平方和最小化。一般回归问题会使用此损失,离群点对次损失影响较大。
- L1损失函数,也被称为最小绝对值偏差(LAD),绝对值损失函数(LAE)。总的说来,它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的绝对差值的总和最小化。
- L1损失函数相比于L2损失函数的鲁棒性更好。因为L2范数的平方操作使模型的误差会比L1范数的计算结果大的多,模型需要调整以最小化误差,当遇到异常样本时便使得训练模型的方向偏离目标。
- L0范数本身是特征选择的最直接最理想的方案,最小化L0范数可以寻找最少最优的稀疏特征项,但它的最小化在实际应用中是NP难问题。因此实际应用中通常使用L1来得到L0的最优凸近似。
- L2相对于L1具有更为平滑的特性,当遇到两个对预测有帮助的特征时,L1倾向于选择较大者,L2倾向把两者结合起来。
本文作者:心有所向,日复一日,必有精进
本文链接:https://www.cnblogs.com/Stareven233/p/16393315.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
分类:
note
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
2021-06-20 fzu2021人机交互技术笔记