梯度下降法

梯度下降法主要分为三种，

梯度下降法
随机梯度下降
小批量梯度下降

下面分别来介绍一下，这样更加有助于理解它们之间的联系。

梯度下降法

梯度下降使用整个训练数据集来计算梯度，因此它有时也被称为批量梯度下降

下面就以均方误差讲解一下，假设损失函数如下：

$J(\theta_0,\theta_1,\theta_2,...,\theta_n)=\frac{1}{m}\sum_{m}^{j=0}{(\hat{y}-y)^2}$

其中 $\hat{y}$ 是预测值， $y$ 是真实值，那么要最小化上面损失 $J$ ,需要对每个参数 $\theta_0、\theta_1、...、\theta_n$ 运用梯度下降法：

$\theta_i\leftarrow\theta_i-\alpha\frac{\partial}{\partial\theta_i}J(\theta_0,\theta_1,...,\theta_n)$

其中 $\frac{\partial}{\partial\theta_i}J(\theta_0,\theta_1,...,\theta_n)$ 是损失函数对参数 $\theta_i$ 的偏导数、 $\alpha$ 是学习率，也是每一步更新的步长。

随机梯度下降法

在机器学习\深度学习中，目标函数的损失函数通常取各个样本损失函数的平均，那么假设目标函数为：

$J(x)=\frac{1}{n}\sum_{i=1}^{n}{J(x_i)}$

其中 $J(x_i)$ 是第 $x_i$ 个样本的目标函数，那么目标函数在在 $x$ 处的梯度为：

$\nabla{J(x)}=\frac{1}{n}\nabla\sum_{i=1}^{n}{J(x_i)}$

如果使用梯度下降法(批量梯度下降法)，那么每次迭代过程中都要对 $n$ 个样本进行求梯度，所以开销非常大，随机梯度下降的思想就是随机采样一个样本 $J(x_i)$ 来更新参数，那么计算开销就从 $\mathcal{O}{(n)}$ 下降到 $\mathcal{O}{(1)}$ 。

小批量梯度下降法

随机梯度下降虽然提高了计算效率，降低了计算开销，但是由于每次迭代只随机选择一个样本，因此随机性比较大，所以下降过程中非常曲折(图片来自《动手学深度学习》)，

所以，样本的随机性会带来很多噪声，我们可以选取一定数目的样本组成一个小批量样本，然后用这个小批量更新梯度，这样不仅可以减少计算成本，还可以提高算法稳定性。小批量梯度下降的开销为 $\mathcal{O}{(\left| \mathscr{B} \right|)}$ 其中 $\left| \mathscr{B} \right|$ 是批量大小。

*该怎么选择？*

当数据量不大的时候可以选择批量梯度下降法，当数据量很大时可以选择小批量梯度下降法。

参考链接：

https://www.zhihu.com/question/264189719

posted @ 2020-07-20 19:11 胖墩哥阅读(397) 评论(0) 编辑收藏举报

刷新页面返回顶部