交叉熵相关

1.交叉熵与最大似然估计之间的联系
结论：交叉熵最小即似然值最大，让模型输出的分布尽量能接近训练数据的分布。
参考链接：
https://www.zhihu.com/question/65288314/answer/849294209

比如说现在有一个真实分布为 P（x）的随机变量，我们对它进行了N次独立同分布实验，对于每个可能的结果x观察到的次数为N（x），利用乘法公式，每次实验的概率乘起来，合并相同的项写成幂的形式。那么它的似然值就可以写成

取对数值如下：

为了避免负数以及避免与样本数之间的直接关系，对上式取负值并除总样本数进行归一化，可得如下：

利用拉格朗日乘子法，在给定 Po的情况下，使交叉熵最小的分布P一定有 P=Po，

对P（x）求偏导可得

再根据归一化条件得到P=Po。

2.交叉熵损失函数与平方损失函数之间的异同

结论：MSE是高斯分布的最大似然（我们假设：观察值本身存在的随机性，我们假设这一随机性符合高斯分布。）；CE是多项式分布的最大似然；（标签服从伯努利分布（推广到多分类单标签问题，标签服从多项式分布））分类的问题中，最好检验准确度的模型就是这个预测对还是不对，对为1，不对为0。而MSE是计算你的预测离真实值远不远，因此不适于分类问题。（交叉熵损失函数只和分类正确的预测结果有关。而平方损失函数还和错误的分类有关，平方损失函数除了让正确分类尽量变大，还会让错误分类都变得更加平均。但是对于回归问题这样的考虑就显得重要了，因而回归问题上使用交叉熵并不适合。）同时，MSE作为二元分类的损失函数会有梯度消失。

理论解释如下：

3.LR为什么采用sigmoid函数

1）. 线性模型的输出都是在[−∞,+∞]之间的，而Sigmoid能够把它映射到[0,1]之间。正好这个是概率的范围。
2）. Sigmoid是连续光滑的。
3）. 根据Sigmoid函数，最后推导下来逻辑回归其实就是最大熵模型，根据最大似然估计得到的模型的损失函数就是logloss。这让整个逻辑回归都有理可据。
4）. Sigmoid也让逻辑回归的损失函数成为凸函数，这也是很好的性质。
5）. 逻辑回归的损失函数是二元分类的良好代理函数，这个也是Sigmoid的功劳。

posted @ 2021-07-30 15:37 Marklong 阅读(139) 评论(0) 编辑收藏举报

刷新页面返回顶部

Marklong

交叉熵相关

公告