机器学习中常见的损失函数（转）

2018-09-17 11:08 PJL_Allen 阅读(547) 评论(0) 编辑收藏举报

来源：https://blog.csdn.net/heyongluoyao8/article/details/52462400

在各种机器学习相关的论文中，我们都可以看到一个叫损失函数（loss function）或者成本函数（cost function）的公式。我们把损失函数作为目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中。

损失函数是用来评价模型的预测值 $\hat{Y} = f (X)$

L = \sum i = 1 N ℓ (y i, y i^)

常见的损失函数 $ℓ (y_{i}, \hat{y_{i}})$

Zero-one Loss

Zero-one Loss即0-1损失，它是一种较为简单的损失函数，如果预测值与目标值不相等，那么为1，否则为0，即：

ℓ(yi,yi^)={1,0,yi≠yi^yiℓ(yi,yi^)={1,yi≠yi^0,yi=yi^

可以看出上述的定义太过严格，如果真实值为1，预测值为0.999，那么预测应该正确，但是上述定义显然是判定为预测错误，那么可以进行改进为Perceptron Loss。

Perceptron Loss

Perceptron Loss即为感知损失。即：

ℓ(yi,yi^)={1,0,|yi−yi^ℓ(yi,yi^)={1,|yi−yi^|>t0,|yi−yi^|≤t

其中 $t$

Hinge Loss

Hinge损失可以用来解决间隔最大化问题，如在SVM中解决几何间隔最大化问题，其定义如下：

ℓ(yi,yi^)=max{0,1−yi⋅yi^}ℓ(yi,yi^)=max{0,1−yi⋅yi^}

$t$

y i \in {- 1, + 1}

$t$

Log Loss

在使用似然函数最大化时，其形式是进行连乘，但是为了便于处理，一般会套上log，这样便可以将连乘转化为求和，由于log函数是单调递增函数，因此不会改变优化结果。因此log类型的损失函数也是一种常见的损失函数，如在LR(Logistic Regression, 逻辑回归)中使用交叉熵(Cross Entropy)作为其损失函数。即：

ℓ (y i, y i^) = - y i \cdot l o g y i^- (1 - y i) \cdot l o g (1 -

$t$

y i \in {0, 1}

$t$

0 \cdot l o g \cdot = 0

Square Loss

Square Loss即平方误差，常用于回归中。即：

ℓ (y i, y i^) = (y i - y i^) 2

$t$

y i, y i^\in R

Absolute Loss

Absolute Loss即绝对值误差，常用于回归中。即：

ℓ (y i, y i^) = | y i - y i^|

$t$

y i, y i^\in R

Exponential Loss

Exponential Loss为指数误差，常用于boosting算法中，如AdaBoost。即：

ℓ (y i, y i^) = e x p (- y i \cdot y i^)

$t$

y i \in {- 1, 1}

正则

一般来说，对分类或者回归模型进行评估时，需要使得模型在训练数据上使得损失函数值最小，即使得经验风险函数最小化，但是如果只考虑经验风险(Empirical risk)，容易过拟合(详细参见防止过拟合的一些方法)，因此还需要考虑模型的泛化能力，一般常用的方法便是在目标函数中加上正则项，由损失项(Loss term)加上正则项(Regularization term)构成结构风险(Structural risk)，那么损失函数变为：