摘要: Momentum:解快了收敛速度,同时也减弱了SGD的波动 NAG: 减速了Momentum更新参数太快 Adagrad: 出现频率较低参数采用较大的更新,对于出现频率较高的参数采用较小的,不共用一个学习率 Adadelta:解决了Adagrad后续学习率为0的缺点,同时不要defalut 学习率 阅读全文
posted @ 2018-06-27 21:31 simple_wxl 阅读(329) 评论(0) 推荐(0) 编辑