深度学习的优化算法

目前，深度学习的优化器以反向传播的梯度下降算法为主流。常见的优化器有如下几种：

BGD
SGD
MBGD
Momentum
RMSProp
AdaGrad
Adam

1. 批量梯度下降(Batch Gradient Descent, BGD)

2. 随机梯度下降法（Stochastic Gradient Descent，SGD）

3. 小批量随机梯度下降(Mini-batch Gradient Descent, MBGD)

4. SGDM(SGD with Momentum)

SGDM在SGD基础上引入了一阶动量:

m_{t} = β_{1} \cdot m_{t - 1} + (1 - β_{1}) \cdot g_{t}

SGD-M参数更新公式如下，其中 $α$ 是学习率， $g_{t}$ 是当前参数的梯度

ω_{t + 1} = ω_{t} - α \cdot m_{t} = ω_{t} - α \cdot (β_{1} \cdot m_{t - 1} + (1 - β_{1}) \cdot g_{t})

一阶动量是各个时刻梯度方向的指数移动平均值，也就是说， $t$ 时刻的下降方向，不仅由当前点的梯度方向决定，而且由此前累积的下降方向决定。 $β_{1}$ 的经验值为0.9，这就意味着下降方向主要是此前累积的下降方向，并略微偏向当前时刻的下降方向。想象高速公路上汽车转弯，在高速向前的同时略微偏向，急转弯可是要出事的。

特点：

因为加入了动量因素，SGD-M缓解了SGD在局部最优点梯度为0，无法持续更新的问题和振荡幅度过大的问题，但是并没有完全解决，当局部沟壑比较深，动量加持用完了，依然会困在局部最优里来回振荡。

5. RMSProp

6. 自适应梯度法(adaptive gradient, AdaGrad)

它通过记录每次迭代过程中的前进方向和距离，从而使得针对不同问题，有一套自适应调整学习率的方法，即不同的参数是需要不同的学习率的。具有损失较大偏导的参数相应地有一个快速下降的学习率，而具有小偏导的参数在学习率上有相对较小的下降。

AdaGrad的效果是：在参数空间中更为平缓的倾斜方向会取得更大的进步（因为平缓，所以历史梯度平方和较小，对应学习下降的幅度较小）。

优点：解决了SGD中学习率不能自适应调整的问题。

缺点：
（1）对于训练深度神经网络模型而言，从训练开始时累积平方梯度值会越来越大，会导致学习率过早和过量的减少，从而导致迭代后期收敛及其缓慢。AdaGrad在某些深度学习模型上效果不错，但不是全部。
（2）需要手动设置全局学习率

7. Adam

posted @ 2023-04-12 14:19 woxin_lab 阅读(170) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· pytorch--训练分层学习率设置

· 论文--一种用于机械系统剩余使用寿命估计的新型双流自注意力神经网络--中文翻译

· 深度学习中几种常用的优化器

· 优化算法的一些摘要

· 优化算法小结

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

昵称： woxin_lab
园龄： 2年9个月
粉丝： 5
关注： 48

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

1. Hi~(4)

推荐排行榜

最新评论

1. Re:Hi~
@小徐深度学习对于CMAPSS数据集的每个数据子集，其训练集和测试集不是同一批发动机。比如FD001，训练集就是100个发动机的衰退轨迹，测试集是另外的100个发动机。这也就能解释FD002和FD0...
--woxin_lab
2. Re:Hi~
大佬，C-MAPSS数据集中每个数据集的训练集和测试集来自相同的发动机吗？还有FD002和FD004中测试集和训练集的轨迹数不一样，这是为什么？
--小徐深度学习
3. Re:Hi~
你好
--woxin_lab
4. Re:Hi~
哈哈哈
--woxin_lab