损失函数(均方误差、交叉熵)
1. 平方损失函数
L2范数损失函数,也被称为最小平方误差(LSE)。它是把目标值$y_i$与估计值$f(x_i)$的差值的平方和最小化。一般回归问题会使用此损失,离群点对次损失影响较大。
$L=\sum_{i=1}^n(y_i−f(x_i))^2$
2.交叉熵损失函数
分类问题因为输出的是概率,故而一般使用的是此损失。
假设目标值:$y_i$、估计值:$f(x_i)$
交叉熵损失的公式是$L=\sum_{i=1}^n−[y_i ln f(x_i)+(1−y_i)ln(1−f(x_i))]$
易混淆点:
注意公式不是$L=\sum_{i=1}^n−[f(x_i)ln y_i +(1−f(x_i))ln(1−y_i)]$,因为当真实的label $y_i=0$时,$lny_i$没有意义;当期望$y_i=1$时,$ln(1-y_i)$没有意义。而因为$f(x_i)$是sigmoid函数的实际输出,永远不会等于0或1,只会无限接近于0或者1,因此不存在这个问题。
当真实label $y_i$与期望输出$f(x_i)$接近的时候,代价函数接近于0。
熵的概念请参考:https://www.cnblogs.com/AntonioSu/p/12442802.html
3.绝对值损失函数(LAE)
也被称为L1范数损失函数,最小绝对值偏差(LAD)。总的说来,它是把目标值$y_i$与估计值$f(x_i)$的绝对差值的总和最小化。
$L=\sum_{i=1}^n|y_i−f(x_i)|$
4.对数损失函数
$L(y,h(x))=log(1-exp(yh(x)))$