会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
simple_wxl
博客园
首页
新随笔
联系
订阅
管理
2018年6月27日
An overview of gradient descent optimization algorithms (更新到Adam)
摘要: Momentum:解快了收敛速度,同时也减弱了SGD的波动 NAG: 减速了Momentum更新参数太快 Adagrad: 出现频率较低参数采用较大的更新,对于出现频率较高的参数采用较小的,不共用一个学习率 Adadelta:解决了Adagrad后续学习率为0的缺点,同时不要defalut 学习率
阅读全文
posted @ 2018-06-27 21:31 simple_wxl
阅读(329)
评论(0)
推荐(0)
编辑
公告