机器学习（ML）十五之梯度下降和随机梯度下降

梯度下降和随机梯度下降

梯度下降在深度学习中很少被直接使用，但理解梯度的意义以及沿着梯度反方向更新自变量可能降低目标函数值的原因是学习后续优化算法的基础。随后，将引出随机梯度下降（stochastic gradient descent）。

一维梯度下降

以简单的一维梯度下降为例，解释梯度下降算法可能降低目标函数值的原因。假设连续可导的函数 $f : R \to R$ $f : R \to R$

学习率

梯度下降算法中的正数 $η$

如果使用过大的学习率， $| η f^{'} (x) |$

多维梯度下降

随机梯度下降

使用适当的学习率，沿着梯度反方向更新自变量可能降低目标函数值。梯度下降重复这一更新过程直到得到满足要求的解。
学习率过大或过小都有问题。一个合适的学习率通常是需要通过多次实验找到的。
当训练数据集的样本较多时，梯度下降每次迭代的计算开销较大，因而随机梯度下降通常更受青睐。

posted @ 2020-02-20 17:07 Jaww 阅读(495) 评论(0) 编辑收藏举报

刷新页面返回顶部