武松数到五

导航

2017年11月20日 #

SGD训练时收敛速度的变化研究。

摘要: 一个典型的SGD过程中,一个epoch内的一批样本的平均梯度与梯度方差,在下图中得到了展示。 无论什么样的网络结构,无论是哪一层网络的梯度,大体上都遵循下面这样的规律: 高信号/噪音比一段时间之后,信号/噪音比逐渐降低,收敛速度减缓,梯度的方差增大,梯度均值减小。 噪音增加的作用及其必要性会在另一篇 阅读全文

posted @ 2017-11-20 01:36 武松数到五 阅读(2303) 评论(0) 推荐(0) 编辑