机器学习（ML）二之损失函数

一、模型举例

1. 预测政治倾向例子

模型1

模型1对于样本1和样本2以非常微弱的优势判断正确，对于样本3的判断则彻底错误。

模型2：

型2对于样本1和样本2判断非常准确，对于样本3判断错误，但是相对来说没有错得太离谱。

二、模型分类

1、Classification Error

损失函数定义为： $classification\ error=\frac{count\ of\ error\ items}{count\ of \ all\ items}$

模型1： $classification\ error=\frac{1}{3}$

模型2： $classification\ error=\frac{1}{3}$

我们知道，模型1和模型2虽然都是预测错了1个，但是相对来说模型2表现得更好，损失函数值照理来说应该更小，但是，很遗憾的是， $classification\ error$ 并不能判断出来，所以这种损失函数虽然好理解，但表现不太好。

2、Mean Squared Error

均方误差损失也是一种比较常见的损失函数，其定义为： $MSE=\frac{1}{n}\sum_{i}^n(\hat{y_i}-y_i)^2$

模型1：

$\begin{aligned} \text{sample 1 loss=}\frac{(0.3-0)^2 + (0.3-0)^2 + (0.4-1)^2}{3} = 0.18 \\ \text{sample 2 loss=}\frac{(0.3-0)^2 + (0.4-1)^2 + (0.3-0)^2}{3} = 0.18 \\ \text{sample 3 loss=}\frac{(0.1-1)^2 + (0.2-0)^2 + (0.7-0)^2}{3} = 0.44 \\ \end{aligned} \\$

对所有样本的loss求平均：

$MSE=\frac{0.18+0.18+0.44}{3}=0.26 \\$

模型2：

$\begin{aligned} \text{sample 1 loss=}\frac{(0.1-0)^2 + (0.2-0)^2 + (0.7-1)^2}{3} = 0.046\\ \text{sample 2 loss=}\frac{(0.1-0)^2 + (0.7-1)^2 + (0.2-0)^2}{3} = 0.046\\ \text{sample 3 loss=}\frac{(0.3-1)^2 + (0.4-0)^2 + (0.3-0)^2}{3} = 0.240\\ \end{aligned} \\$

对所有样本的loss求平均：

$MSE=\frac{0.046+0.046+0.24}{3}=0.11 \\$

我们发现，MSE能够判断出来模型2优于模型1，那为什么不采样这种损失函数呢？主要原因是逻辑回归配合MSE损失函数时，采用梯度下降法进行学习时，会出现模型一开始训练时，学习速率非常慢的情况（MSE损失函数）。

有了上面的直观分析，我们可以清楚的看到，对于分类问题的损失函数来说，分类错误率和均方误差损失都不是很好的损失函数，下面我们来看一下交叉熵损失函数的表现情况。

3、Cross Entropy Error Function

3.1 表达式

3.1.1 二分类

在二分的情况下，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为 $p$ 和 $1-p$ 。此时表达式为：

$\begin{align}L = −[y\cdot log(p)+(1−y)\cdot log(1−p)]\end{align} \\$

其中：
- y——表示样本的label，正类为1，负类为0
- p——表示样本预测为正的概率

3.1.2 多分类

多分类的情况实际上就是对二分类的扩展：

$\begin{align}L = -\sum_{c=1}^My_{c}\log(p_{c})\end{align} \\$

其中：
- $M$ ——类别的数量；
- $y_c$ ——指示变量（0或1）,如果该类别和样本的类别相同就是1，否则是0；
- $p_c$ ——对于观测样本属于类别 $c$ 的预测概率。

现在我们利用这个表达式计算上面例子中的损失函数值：

模型1：
$\begin{aligned} \text{sample 1 loss} = - (0\times log0.3 + 0\times log0.3 + 1\times log0.4) = 0.91 \\ \text{sample 2 loss} = - (0\times log0.3 + 1\times log0.4 + 0\times log0.3) = 0.91 \\ \text{sample 3 loss} = - (1\times log0.1 + 0\times log0.2 + 0\times log0.7) = 2.30 \\ \end{aligned} \\$

对所有样本的loss求平均：

$MSE=\frac{0.91+0.91+2.3}{3}=1.37 \\$

模型2：

$\begin{aligned} \text{sample 1 loss} = - (0\times log0.1 + 0\times log0.2 + 1\times log0.7) = 0.35 \\ \text{sample 2 loss} = - (0\times log0.1 + 1\times log0.7 + 0\times log0.2) = 0.35 \\ \text{sample 3 loss} = - (1\times log0.3 + 0\times log0.4 + 0\times log0.4) = 1.20 \\ \end{aligned} \\$