深度学习优化算法Momentum RMSprop Adam

一、Momentum

1. 计算dw、db.

2. 定义v_db、v_dw

\[v_{dw}=\beta v_{dw}+(1-\beta)dw \]

\[v_{db}=\beta v_{db}+(1-\beta)db \]

3. 更新dw、db

\[dw=w-\alpha v_{dw} \]

\[db=b-\alpha v_{db} \]

二、RMSprop

1. 计算dw、db.

2. 定义s_db、s_dw (这里的平方是元素级的)

\[s_{dw}=\beta s_{dw}+(1-\beta)dw^2 \]

\[s_{db}=\beta s_{db}+(1-\beta)db^2 \]

3. 更新dw、db

\[dw=w-\alpha \frac{w}{\sqrt{s_{dw}}} \]

\[db=b-\alpha \frac{b}{\sqrt{s_{db}}} \]

三、Adam

结合了Momentum+RMSprop

1. 计算dw、db.

2. 定义v_db、v_dw、s_db、s_dw.

\[v_{dw}=\beta_{1} v_{dw}+(1-\beta_{1})dw \]

\[v_{db}=\beta_{1} v_{db}+(1-\beta_{1})db \]

\[s_{dw}=\beta_{2} s_{dw}+(1-\beta_{2})dw^2 \]

\[s_{db}=\beta_{2} s_{db}+(1-\beta_{2})db^2 \]

3. 纠偏(t为迭代次数)

\[v_{dw}^{correct}=\frac{v_{dw}}{1-\beta^t} \]

\[v_{db}^{correct}=\frac{v_{db}}{1-\beta^t} \]

\[s_{dw}^{correct}=\frac{s_{dw}}{1-\beta^t} \]

\[s_{db}^{correct}=\frac{s_{db}}{1-\beta^t} \]

4. 更新dw、db，e为很小的数，防止分母为0。

通常（e=10^-8）

\[dw=w-\alpha \frac{v_{dw}^{correct}}{\sqrt{s_{dw}^{correct}}+e} \]

\[db=b-\alpha \frac{v_{db}^{correct}}{\sqrt{s_{db}^{correct}}+e} \]

posted @ 2018-01-06 17:50 郭耀华阅读(824) 评论(0) 编辑收藏举报

刷新页面返回顶部

郭耀华's Blog

欲穷千里目，更上一层楼
项目主页：https://github.com/guoyaohua/

深度学习优化算法Momentum RMSprop Adam

一、Momentum

1. 计算dw、db.

2. 定义v_db、v_dw

3. 更新dw、db

二、RMSprop

1. 计算dw、db.

2. 定义s_db、s_dw (这里的平方是元素级的)

3. 更新dw、db

三、Adam

结合了Momentum+RMSprop

1. 计算dw、db.

2. 定义v_db、v_dw、s_db、s_dw.

3. 纠偏(t为迭代次数)

4. 更新dw、db，e为很小的数，防止分母为0。

通常（e=10^-8）

公告

郭耀华's Blog

欲穷千里目，更上一层楼 项目主页：https://github.com/guoyaohua/

深度学习优化算法Momentum RMSprop Adam

一、Momentum

1. 计算dw、db.

2. 定义v_db、v_dw

3. 更新dw、db

二、RMSprop

1. 计算dw、db.

2. 定义s_db、s_dw (这里的平方是元素级的)

3. 更新dw、db

三、Adam

结合了Momentum+RMSprop

1. 计算dw、db.

2. 定义v_db、v_dw、s_db、s_dw.

3. 纠偏(t为迭代次数)

4. 更新dw、db，e为很小的数，防止分母为0。

通常（e=10^-8）

公告

欲穷千里目，更上一层楼
项目主页：https://github.com/guoyaohua/