人脸识别和检测中loss学习 - 1 -softmax loss

参考:https://www.jianshu.com/p/7e200a487916

1.什么是softmax

softmax是用于分类任务的,其实就是希望最后输出的结果值能在[0,1)之间,且归一化保证所有值的和为1

公式为:

 

 

下面的例子明白了为什么使用e次幂做除法了,因为分类其的输出Vi很可能是负值,e次幂操作得到的结果就都是正值(或接近0),这样才好求比例:

 

 

当然,因为是指数运算,往往也会因为网络输出值过大造成指数溢出的情况,所以需要进行一个数值处理:

即V中的每个元素减去V中最大值:

 

 

2.softmax损失函数求导

在多分类任务中,我们经常使用交叉熵作为损失函数

1)什么是交叉熵

 

 

举例说明:

 

传统的softmax loss损失函数也可写为:

 

 

 

2)求导

 

 

具体求导过程:

 

posted @ 2020-03-17 11:51  慢行厚积  阅读(836)  评论(0编辑  收藏  举报