L1损失函数和L2损失函数

  • L1损失函数:最小化绝对误差,因此L1损失对异常点有较好的适应更鲁棒,不可导,有多解,解的稳定性不好。

       关于L1损失函数的不连续的问题,可以通过平滑L1损失函数代替:smooth_{L1}(x)=\begin{bmatrix}0.5x^{2} ,if |x|<1& \\ |x|-0.5,otherwise & \end{bmatrix}

  • L2损失函数:最小化平方误差,因此L2损失对异常点敏感,L2损失函数会赋予异常点更大的损失值和梯度,调整网络参数向减小异常点误差的方向更新,因此容易造成训练的不稳定和发散。仅有一解,解的稳定更好。

 

posted @ 2019-05-11 00:56  Parallax  阅读(972)  评论(0编辑  收藏  举报