梯度下降-Momentum
摘要:
总结: 梯度下降算法中,学习率太大,函数无法收敛,甚至发散,如下图。学习率足够小,理论上是可以达到局部最优值的(非凸函数不能保证达到全局最优),但学习率太小却使得学习过程过于缓慢,合适的学习率应该是能在保证收敛的前提下,能尽快收敛。对于深度网络中,参数众多,参数值初始位置随机,同样大小的学习率,对于 阅读全文
posted @ 2016-07-18 20:51 jungel24 阅读(14150) 评论(0) 推荐(3) 编辑