深度学习激活函数 深入浅出 通俗易懂 教你如何选择合适的激活函数
图看不懂不要紧,把文章看完就肯定理解了。这是一个方便总结的图
1 概述
本文会介绍六种激活函数,并且比较他们的区别。
1.1 梯度消失问题
- 当很小的时候,就会出现梯度消失的问题,其中许多权重和偏置只能收到非常小的更新。
- 而且不同层的学习速率不同,隐藏层n的学习速率会高于隐藏层n-1。这意味着后面的层几乎肯定会被网络中更前面的层受到更多的优待。
- 同样的会出现梯度爆炸的案例。
2 Sigmoid
sigmoid这样的函数会遇到严重的梯度消失问题,这个问题使得sigmoid函数在神经网络中并不实用,我们应该用后面介绍的其他激活函数。
3 ReLU整流线性单元
- 这个是为了解决梯度消失的问题
- 会出现死亡ReLU问题,计算梯度的时候大多数值都小于0,我们会得到相当多不会更新的权重和偏置。
- 但是死亡ReLU可以带来稀疏性,因为神经网络激活矩阵会有很多0,所以计算成本和效率优化。
- 但是ReLU不能避免梯度爆炸问题
4 ELU指数线性单元
这是经验结论
- 因为引入了指数,所以ELU的计算成本高于ReLU
- 能避免死亡ReLU问题
- 神经网络不学习值
- 不能解决梯度爆炸问题
5 Leaky ReLU渗漏型整流线性单元
- 避免死亡ReLU问题
- 运算速度快于ELU
- 无法避免梯度爆炸问题
- 神经网络不学习值
- 微分后,两部分都是线性的,ELU一部分是线性一部分是非线性的。
6 SELU扩展型指数线性单元激活函数
- SELU可以对神经网络进行子归一化,其输出值为均值为0,标准差为1.。内部归一化比外部归一化快,这意味着网络可以更快的收敛
- 不可能出现梯度爆炸或者消失的问题
- 相对较新,需要更多论文比较性的探索其在CNN和RNN等架构中的应用
- 使用SELU在CNN中应用的论文
7 GELU高斯误差线性单元激活函数
GELU在最近的Transformer模型(谷歌的BERT和OpenAI的GPT-2)中得到了应用
这个函数的图形非常有意思:
微分函数非常复杂,在此不做赘述。
- 在NLP领域最佳,在Transformer模型中表现最好。
- 避免梯度消失问题
- 相当新颖的一个激活函数
如果有能力的小伙伴请看下面这篇进阶版本哦!
有数学基础像更深研究的朋友点这里看这个博文
人不可傲慢。
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 探秘 MySQL 索引底层原理,解锁数据库优化的关键密码(下)
· 大模型 Token 究竟是啥:图解大模型Token
· 35岁程序员的中年求职记:四次碰壁后的深度反思
· 继承的思维:从思维模式到架构设计的深度解析
· 如何在 .NET 中 使用 ANTLR4
· BotSharp 5.0 MCP:迈向更开放的AI Agent框架
· 分享 3 款基于 .NET 开源且免费的远程桌面工具
· 在线聊天系统中的多窗口数据同步技术解密
· 2025,回顾出走的 10 年
· 【保姆级教程】windows 安装 docker 全流程