为什么分类问题用交叉熵损失，而不用均方误差损失

https://blog.csdn.net/taoqick/article/details/102621605

原因一，使用交叉熵loss下降的更快；

原因二，使用交叉熵是凸优化，MSE是非凸优化

1. 损失函数角度

对一个多分类问题，我们一般用onehot编码来表示label，比如猫、老虎、狗的3分类问题，label为[ 1 , 0 , 0 ] ，交叉熵损失只于当前类别有关，与其它类别无关，

在均方误差看来，预测为[ 0.8 , 0.1 , 0.1 ] [0.8, 0.1, 0.1][0.8,0.1,0.1]要比[ 0.8 , 0.15 , 0.05 ] [0.8, 0.15, 0.05][0.8,0.15,0.05]要好，即认为平均总比有倾向性要好，但这有悖我们的常识。

而对交叉熵损失，既然类别间复杂的相似度矩阵是难以量化的，索性只能关注样本所属的类别，只要当前类别的该类别的概率接近1就好来，更合理。

2. softmax（sigmoid）反向传播角度

参考资料

https://blog.csdn.net/blogshinelee/article/details/103518097?utm_medium=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control

posted @ 2021-08-10 22:44 xd_xumaomao 阅读(1188) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部