L0, L1, L2, p范数及其在损失函数中的使用

对于向量 \(x=[x_1,\;x_2,\;...,\;x_n]\)，各范数定义如下所示

p-范数：\(\left \| X \right \|_p = (\left| x_1 \right|^p + \left| x_2 \right|^p + ... + \left| x_n \right|^p)^\frac{1}{p}\)
L1范数，p-范数中p=1的情况，即各元素绝对值之和：\(\left \| X \right \|_1 = (\left| x_1 \right| + \left| x_2 \right| + ... + \left| x_n \right|)\)
L2范数，p-范数中p=2的情况，即各元素平方和再开平方：\(\left \| X \right \|_2 = (\left| x_1 \right|^2 + \left| x_2 \right|^2 + ... + \left| x_n \right|^2)^\frac{1}{2}\)
L0范数：指向量中非0元素的个数。
无穷范数：指向量中元素绝对值中的最大值。

作为损失函数时：

L2范数损失函数，也被称为最小平方误差（LSE）。它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的差值的平方和最小化。一般回归问题会使用此损失，离群点对次损失影响较大。
L1损失函数，也被称为最小绝对值偏差（LAD），绝对值损失函数（LAE）。总的说来，它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的绝对差值的总和最小化。
L1损失函数相比于L2损失函数的鲁棒性更好。因为L2范数的平方操作使模型的误差会比L1范数的计算结果大的多，模型需要调整以最小化误差，当遇到异常样本时便使得训练模型的方向偏离目标。
L0范数本身是特征选择的最直接最理想的方案，最小化L0范数可以寻找最少最优的稀疏特征项，但它的最小化在实际应用中是NP难问题。因此实际应用中通常使用L1来得到L0的最优凸近似。
L2相对于L1具有更为平滑的特性，当遇到两个对预测有帮助的特征时，L1倾向于选择较大者，L2倾向把两者结合起来。

posted @ 2022-06-20 15:12 NoNoe 阅读(952) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部