随机梯度下降法SGD

梯度下降法需要遍历数据集上百次,数据集越大所花费的时间越多。而现在训练的样本集越来越大,造成梯度下降法造成的时间成本非常高,难以规模化。

随机梯度下降法,是从样本集中抽出一小部分数据(随机抽出),用来做梯度下降法。这个虽然会有一点误差,但我们每次只走一小步。他速度更快,并且更容易规模化。

ADAGRAD是GSD的改进版,他自动选择了动量和学习率衰减。使用ADAGRAD通常会使学习过程对超参数不那么敏感。

posted @ 2018-07-10 15:27  广目天王  阅读(222)  评论(0编辑  收藏  举报