3-5 激活函数

激活函数（ Activation functions）

常用激活函数：

依次为：

tanh可以看做是sigmoid函数向下平移和伸缩的结果，对它变形之后，穿过了(0,0)点，并且阈值介于-1和+1之间。

在隐藏层上使用tanh函数效果优于sigmoid，因为函数值域在-1和+1的激活函数，其均值更接近于0，这样会使下一层的学习变得简单。

Sigmoid函数和tanh函数两者共同的缺点是，在z特别大或者特别小的情况下，导数梯度或者函数的斜率会变得小，最后接近于0，导致梯度下降的速度降低。

即修正线性单元函数：

只要z是正值，导数恒等于1，当z是负数的时候，导数恒等于0，从实际来讲，z=0的导数是没有定义的，但在编程时可以将z=0时的导数设置为1或者0不会对结果有影响。

这是另一个版本的Relu：

当z为负值时，这个函数的值不等于0，而是稍微的倾斜。

这个函数的效果比Relu激活函数好，尽管在实际使用的并不多。

Relu进入负半区后，梯度为0，神经元不会训练，产生所谓的稀疏性，而Leaky Relu不会。

相比于Sigmoid、tanh函数，Relu、LeakyRelu的优点有：

Sigmoid、tanh函数的计算涉及浮点四则运算，在神经网络训练的过程中，使用Relu、Leaky Relu函数学习更快。
Sigmoid函数、tanh函数的导数在正负饱和区的梯度都会接近于0，这会造成梯度弥散，而Relu、Leaky Relu大于0的部分导数都是常数，不会出现梯度弥散。

Sigmoid函数，除了输出层是一个二分类问题外基本不会使用。

tanh激活函数：非常优秀的激活函数，几乎适合所有场合。

Relu激活函数，最常用的默认函数，如果不确定使用哪个激活函数，就使用Relu或者Leaky Relu函数。

在不同的神经网络层中，激活函数可以不同，为了表示不同的激活函数，使用${g^{[m]}}$表示，m表示不同的层。

假如使用线性激活函数：

从而：

进一步可以简化为：

上面的式子表明，如果使用线性激活函数或者叫恒等激励函数，那么神经网络只是把输入线性组合再输出。

在这种情况下，不管隐藏层有多少层，本质上在做就是计算线性函数，不如直接把隐藏层全部去掉。比如，如果在隐藏层使用线性激活函数，在输出层使用sigmoid函数，那么这个模型的复杂度和没有使用任何隐藏层的标准logistic回归是一样的。

只有一个地方可能会使用线性激活函数，就是在输出层，例如使用机器学习预测房价，输出可能是0到正无穷的任意实数，此时在输出层使用线性激活函数也许可行。

posted @ 2018-08-23 21:50 刘-皇叔阅读(607) 评论(0) 编辑收藏举报

刷新页面返回顶部