激活函数

激活函数：

激活函数的作用：

梯度下降由基于链式规则的反向传播组成，链式规则用于获取权值变化以减少每次训练后的损失。
神经网络是利用梯度下降过程来训练的。
如果使用线性函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。加深神经网络的层数就没有什么意义了。线性函数的问题在于不管加深层数到多少，总是存在与之等效的「无隐藏层」的神经网络。为了稍微直观的理解这一点，考虑下面一个简单的例子。

存在一个线性函数f(x)=kx(k≠0)作为激活函数，将y=f(f(f(x)))对应三层的神经网络。很明显可以想到同样的处理可以由y=ax(a=k^3)，一个没有隐藏层的神经网络来表示。该例子仅仅是一个近似，实际中的神经网络的运算要比这个例子复杂很多，但不影响结论的成立。也就是说，使用线性激活函数时，无法发挥多层网络带来的优势。

相反如果使用非线性函数，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

常见的激活函数：

Sigmoid

导数函数：

缺陷：
1.梯度消失：函数趋近 0 和 1 的时候变化率会变得平坦，即梯度趋近于 0。神经网络使用 Sigmoid 激活函数进行反向传播时，输出接近 0 或 1 的神经元其梯度趋近于 0。这些神经元叫作饱和神经元。因此，这些神经元的权重不会更新。此外，与此类神经元相连的神经元的权重也更新得很慢。该问题叫作梯度消失。因此，想象一下，如果一个大型神经网络包含 Sigmoid 神经元，而其中很多个都处于饱和状态，那么该网络无法执行反向传播。
2.不以零为中心： Sigmoid 输出不以零为中心的。
3.计算成本高昂： exp() 函数与其他非线性激活函数相比，计算成本高昂。

双曲正切函数 tanh

导数函数：

与 Sigmoid 不同，Tanh 函数的输出以零为中心，区间在-1 到 1 之间。也会有梯度消失的问题。

线性整流函数（Rectified Linear Unit, ReLU）

导数函数：

缺点：
1.不以零为中心：和 Sigmoid 激活函数类似，ReLU 函数的输出不以零为中心。
2.前向传导（forward pass）过程中，如果 x < 0，则神经元保持非激活状态，且在后向传导（backward pass）中「杀死」梯度。这样权重无法得到更新，网络无法学习。当 x = 0 时，该点的梯度未定义，但是这个问题在实现中得到了解决，通过采用左侧或右侧的梯度的方式。

Leaky ReLU 和 Parametric ReLU 函数

ReLU6 函数

Swish 函数

Hard-Swish 或 H-Swish函数

梯度消失梯度爆炸问题：

参考资料：
【深度学习】神经网络为何非要激活函数？
机器学习-神经网络为什么需要非线性(激活函数)
谈谈神经网络中的非线性激活函数——ReLu函数
 常见的激活函数总结
 深度学习问题1-5
为什么Sigmoid和Tanh激活函数会导致梯度消失？

posted @ 2022-09-08 09:40 YTT77 阅读(209) 评论(0) 收藏举报

刷新页面返回顶部

ttyangY77

临渊羡鱼不如退而结网

激活函数

激活函数：

激活函数的作用：

常见的激活函数：

Sigmoid

双曲正切函数 tanh

线性整流函数（Rectified Linear Unit, ReLU）

Leaky ReLU 和 Parametric ReLU 函数

ReLU6 函数

Swish 函数

Hard-Swish 或 H-Swish函数

梯度消失梯度爆炸问题：

公告

ttyangY77

临渊羡鱼 不如退而结网

激活函数

激活函数：

激活函数的作用：

常见的激活函数：

Sigmoid

双曲正切函数 tanh

线性整流函数（Rectified Linear Unit, ReLU）

Leaky ReLU 和 Parametric ReLU 函数

ReLU6 函数

Swish 函数

Hard-Swish 或 H-Swish函数

梯度消失梯度爆炸问题：

公告

临渊羡鱼不如退而结网