均方误差损失函数

假设我们的模型是二维平面的线性回归模型: [公式] ,对于这个模型,我们定义损失函数为MSE,将得到如下的表达式:

 

下面我们试着通过概率的角度,推导出上述的MSE损失函数表达式。

在线性回归模型中,我们最终希望对于输入 [公式] 进行线性组合得到值Y,考虑到输入带有噪声的情况的表达式如下:

[公式]

为了使模型更合理,我们假设 [公式] 服从均值为0,方差为1的高斯分布,即 [公式] 。所以有:

[公式]

[公式]

所以,Y服从均值为 [公式] ,方差为1的高斯分布,则样本点的 [公式] 概率为:

[公式]

有了单个样本的概率,我们就可以计算样本集的似然概率,我们假设每个样本是独立的:

[公式]

对似然函数取对数,得到对数似然函数:

[公式]

这个对数似然函数的形式和我们的MSE损失函数的定义是一样的。所以,使用MSE损失函数意味着,我们假设我们的模型是对噪声的输入做估计,该噪声服从高斯分布。

缺点

使用MSE的一个缺点就是其偏导值在输出概率值接近0或者接近1的时候非常小,这可能会造成模型刚开始训练时,偏导值几乎消失。

假设我们的MSE损失函数为: [公式] ,偏导为: [公式] ,其中 [公式]  [公式] 。可以看出来,在 [公式] 值接近0或者1的时候, [公式] 的值都会接近于0,其函数图像如下:

 

 

这导致模型在一开始学习的时候速率非常慢,而使用交叉熵作为损失函数则不会导致这样的情况发生。

 

ref:https://zhuanlan.zhihu.com/p/35707643

 https://rohanvarma.me/Loss-Functions/(致敬原作者)

posted @ 2020-11-28 13:52  小小马进阶笔记  阅读(4740)  评论(0编辑  收藏  举报