2016 年 7月 18 日随笔档案 - jungel24

2016年7月18日

梯度下降-Momentum

摘要：总结：梯度下降算法中，学习率太大，函数无法收敛，甚至发散，如下图。学习率足够小，理论上是可以达到局部最优值的（非凸函数不能保证达到全局最优），但学习率太小却使得学习过程过于缓慢，合适的学习率应该是能在保证收敛的前提下，能尽快收敛。对于深度网络中，参数众多，参数值初始位置随机，同样大小的学习率，对于阅读全文

posted @ 2016-07-18 20:51 jungel24 阅读(14128) 评论(0) 推荐(3) 编辑

jungel24

梯度下降-Momentum

导航

公告