摘要: 一、序言 Adam是神经网络优化的另一种方法,有点类似上一篇中的“动量梯度下降”,实际上是先提出了RMSprop(类似动量梯度下降的优化算法),而后结合RMSprop和动量梯度下降整出了Adam,所以这里我们先由动量梯度下降引申出RMSprop,最后再介绍Adam。不过,由于RMSprop、Adam 阅读全文
posted @ 2019-10-29 23:01 布兰姥爷 阅读(1149) 评论(0) 推荐(0) 编辑
摘要: 一、序言 动量梯度下降也是一种神经网络的优化方法,我们知道在梯度下降的过程中,虽然损失的整体趋势是越来越接近0,但过程往往是非常曲折的,如下图所示: 特别是在使用mini-batch后,由于单次参与训练的图片少了,这种“曲折”被放大了好几倍。前面我们介绍过L2和dropout,它们要解决的也是“曲折 阅读全文
posted @ 2019-10-29 11:01 布兰姥爷 阅读(1468) 评论(0) 推荐(0) 编辑