优化器

sgd,adagrad支持了自适应学习率,通过累积历史平方梯度,对学习率进行缩放达到自适应的效果;rmsprop加了一个累积值的衰减策略,adam不光加了平方梯度累积值的衰减,还加了梯度累积值的衰减。nag是带动量的sgd(nesterov+sgd),而nadam是带动量的adam。

 

 

posted @ 2019-08-14 15:49  太阳雨~  阅读(116)  评论(0编辑  收藏  举报