Softmax函数

相关概念：

max函数定义就是在选取最大的值．这个最大值函数只能选择最大值

如果我想要一个能够大概率选择最大值，还能够小概率选择小值的函数．这就要用到softmax函数

softmax函数的定义：或称为归一化指数函数，是逻辑函数的推广．能够将一个含有任意实数的k维向量z压缩到另一个k维实向量$\sigma (z)$中，使得每个元素都在(0,1)之间，并且和为１．$$\sigma (z){j}=\frac{e^{{z_{j}}}{\sum_{k=1}} e^{z{k}}}, j=1,2,...K$$
实际应用：

在神经网络中利用softmax函数来进行反向传播：神经网络的正向传播计算的分数S1，和按照正确标注计算的分数S2之间的差距，计算Loss，才能应用反向传播 $$L_{i}=-log(\frac{e^{f_{y_{i}}}}{\sum_{j} e^{j}})$$

在优化loss过程中，我们要通过梯度下降，每次优化一个step大小的梯度，这个时候我们就要求Loss对每个权重矩阵的偏导，然后应用链式法则。那么这个过程的第一步，就是求Loss对score的偏导．score $y_{i}$，先定义$P(y_{i})$:$$P(y_{i})=\frac{e^{f_{y_{i}}}}{\sum_{j} e^{j}}$$ loss 对score的偏导：

\[\frac{\partial L_{i}}{\partial f_{yi}}=- ln (\frac{e^{f_{y_{i}}}}{\sum _{j} e^{j}})^{'} \]

\[=-1 *\frac{\sum_{j} e^{j}}{e^{f_{y_{i}}}}* (\frac{e^{f_{y_{i}}}}{\sum_{j}e^{j}})^{'} \]

\[=-1 *\frac{\sum_{j} e^{j}}{e^{f_{y_{i}}}}*(1-\frac{\sum_{j \neq f_{yi}} e^{j}}{\sum_{j}e^{j}})^{'} \]

\[=-1 *\frac{\sum_{j} e^{j}}{e^{f_{y_{i}}}}*-1*\sum_{j \neq f_{yi}} e^{j}*-1*\frac{1}{(\sum_{j} e^{j})^{2}}*(\sum_{j}e^{j})^{'} \]

\[=-1 *\frac{\sum_{j} e^{j}}{e^{f_{y_{i}}}}*-1*\sum_{j \neq f_{yi}} e^{j}*-1*\frac{1}{(\sum_{j} e^{j})^{2}}*e^{f_{y_{i}}} \]

\[=-(1-P_{f_{y_{i}}})=P_{f_{y_{i}}}-1 \]

可以看得出求导结果的形式非常清晰明了．求解损失函数的梯度，只需要计算概率向量在真正结果的那一个维度减一即可．

举例分析：

假设我们得到的某个训练样本的向量分数为$[2,3,5]$,那么所对应的概率是$[\frac{e^2}{e^{2}+e^{3}+e^{5}},\frac{e^3}{e^{2}+e^{3}+e^{5}},\frac{e^5}{e^{2}+e^{3}+e^{5}}]$=$[0.042,0.114,0.844]$.如果正确的分类是第三个的话，计算的偏导为$$[0.042,0.114,0.844-1]=[0.042,0.114,-0.156]$$根据这个结果进行反向传播的计算．
参考文献：

0.softmax的解释，编程中的注意点

1.wiki-softmax function

2.softmax的理解与应用. @author:杨思达zzz

posted @ 2018-09-18 11:35 dengshuo7412 阅读(498) 评论(0) 编辑收藏举报

刷新页面返回顶部

GeekDengShuo