Tensorflow 自适应学习速率

在模型的初期的时候，往往设置为较大的学习速率比较好，因为距离极值点比较远，较大的学习速率可以快速靠近极值点；而，后期，由于已经靠近极值点，模型快收敛了，此时，采用较小的学习速率较好，较大的学习速率，容易导致在真实极值点附近来回波动，就是无法抵达极值点。

在tensorflow中，提供了一个较为友好的API, tf.train.exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False, name=None)，其数学表达式是这样的：

d e c a y e d_l e a r n i n g_r a t e = l e a r n i n g_r a t e \times d e c a y_r a t e^{(g l o b a l_s t e p / d e c a y_s t e p s)}

$decayed\_learning\_rate = learning\_rate \times decay\_rate ^{ (global\_step / decay\_steps)}$

先解释API中的参数的意思，第一个参数learning_rate即初始学习速率，第二个参数，是用来计算步骤的，每调用一次优化器，即自增1，第三个参数decay_steps通常设为一个常数，如数学公式中所示，与第五个参数配合使用效果较好，第五个参数staircase如果设置为True，那么指数部分就会采用整除策略，表示每decay_step，学习速率变为原来的decay_rate，至于第四个参数decay_rate表示的是学习速率的下降倍率。

global_step = tf.Variable(0, trainable=False)
starter_learning_rate = 0.1
learning_rate = tf.exponential_decay(starter_learning_rate, global_step, 100000, 0.96, staircase=True)
optimizer = tf.GradientDescent(learning_rate)
optimizer.minimize(...my loss..., global_step=global_step)

意思就是，初始的学习速率是0.1，每经过10万轮次训练后，学习速率变为原来的0.96

posted @ 2017-07-02 13:02 狂徒归来阅读(9707) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

历史上的今天：
2015-07-02 CodeForces 368B Sereja and Suffixes
2015-07-02 CodeForces 189A Cut Ribbon
2015-07-02 CodeForces 4C Registration system
2015-07-02 CodeForces 337A Puzzles

公告

昵称：狂徒归来
园龄： 10年8个月
粉丝： 68
关注： 21

+加关注

2025年3月

日

一

二

三

四

五

六

狂徒归来

人生如逆旅，我亦是行人

Tensorflow 自适应学习速率

Tensorflow 自适应学习速率

公告

搜索

最新随笔

随笔分类 (1067)

随笔档案 (1054)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

为什么这么好的文章，阅读量到了2万，评论和点赞那么少啊？