AYE89

coding & learning

导航

2017年12月14日

摘要: 一、梯度下降 最简单的梯度下降算法——固定学习率 x -= grad*lr 步长的选择: 步长太小对局部极小值的逼近慢,训练时间长 步长太大,模型容易震荡,结果不收敛 二、Adam法梯度下降 动量法梯度下降:(当前更新量+之前值 )的平滑 冲量的“惯性” pre_grad = pre_grad*di 阅读全文

posted @ 2017-12-14 18:48 AYE89 阅读(394) 评论(0) 推荐(0) 编辑