RMSprop 优化器

RMSProp算法的全称叫 Root Mean Square Prop（均方根传递），是 Hinton 在 Coursera 课程中提出的一种优化算法，在上面的 Momentum 优化算法中，虽然初步解决了优化中摆动幅度大的问题。

为了进一步优化损失函数在更新中存在摆动幅度过大的问题，并且进一步加快函数的收敛速度，RMSProp算法对权重 W 和偏置 b 的梯度使用了微分平方加权平均数。优化后的效果如下：蓝色的为Momentum优化算法所走的路线，绿色的为RMSProp优化算法所走的路线。

在这里插入图片描述
假设在第 t 轮迭代过程中，各个公式如下所示：

在上面的公式中 $s_{dw}sdw 和 s d b s_{db}sdb 分别是损失函数在前 t−1轮迭代过程中累积的梯度平方动量， β 是梯度累积的一个指数。所不同的是，RMSProp 算法对梯度计算了微分平方加权平均数。这种做法有利于消除了摆动幅度大的方向，用来修正摆动幅度，使得各个维度的摆动幅度都较小。另一方面也使得网络函数收敛更快。$

posted @ 2022-04-18 14:39 Tomorrow1126 阅读(1288) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· torch.optim optimizer函数

· optimizer.zero_grad() loss.backward() optimizer.step()分别的用法和作用

· 神经网络优化篇：详解RMSprop

· Day 03

· Rprop 与 RMSprop 优化器

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· SQL Server 2025 AI相关能力初探
· 单线程的Redis速度为什么快？
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 开源Multi-agent AI智能体框架aevatar.ai，欢迎大家贡献代码

公告

昵称： Tomorrow1126
园龄： 5年6个月
粉丝： 18
关注： 3

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:什么是消融实验（Ablation experiment）？
是的
--anion
2. Re:论文理解Diversified Arbitrary Style Transfer via Deep Feature Perturbation
Figure 4中的$\lambda$是作者这篇文章提出的，为什么分成了上下两行呢？对于同一个$\lambda$设置上下两行有什么区别么？这个图没看懂，想问一下博主是如何理解的？
--jiahangok