2018 年 6月 27 日随笔档案 - simple_wxl

2018年6月27日

An overview of gradient descent optimization algorithms (更新到Adam)

摘要： Momentum:解快了收敛速度，同时也减弱了SGD的波动 NAG: 减速了Momentum更新参数太快 Adagrad: 出现频率较低参数采用较大的更新，对于出现频率较高的参数采用较小的,不共用一个学习率 Adadelta:解决了Adagrad后续学习率为0的缺点，同时不要defalut 学习率阅读全文

posted @ 2018-06-27 21:31 simple_wxl 阅读(329) 评论(0) 推荐(0) 编辑

simple_wxl

公告