神经网络优化:Adam(Adaptive Moment Estimation)
Adam算法其实就是结合了动量梯度下降法和RMSprop算法,是最广为使用的算法,在大多数情况下都有效果。
动量梯度算法和RMSprop算法的复习:
动量:https://www.cnblogs.com/toriyung/p/16467289.html
RMS:https://www.cnblogs.com/toriyung/p/16537212.html
先和以往一样,计算V和S(记得修正)
然后更新
参数
Adam算法涉及到四个参数
α:需要进行调试和选择
β1:动量算法滑动均值的权重,默认为0.9
β2:RMSprop算法的权重,默认为0.999
ε:RMSprop算法的除数规避常数,默认为1e-8