梯度下降算法分类总结

引言

梯度下降法 (Gradient Descent Algorithm，GD) 是为目标函数J(θ)，如代价函数(cost function), 求解全局最小值（Global Minimum）的一种迭代算法。

为什么使用梯度下降法

我们使用梯度下降法最小化目标函数J(θ)。在使用梯度下降法时，首先初始化参数值，然后一直改变这些值，直到得到全局最小值。其中，我们计算在每次迭代时计算代价函数的导数，然后使用如下公式同时更新参数值：

a5b40dac8c48a93c6e0b9c0725bf8c81fe10ba8d

α表示学习速率（learning rate）。

梯度下降法的工作原理

下面的伪代码能够解释其详细原理：

1. 初始化参数值

2. 迭代更新这些参数使目标函数J(θ)不断变小。

梯度下降法的类型

基于如何使用数据计算代价函数的导数，梯度下降法可以被定义为不同的形式（various variants）。确切地说，根据使用数据量的大小（the amount of data），时间复杂度（time complexity）和算法的准确率（accuracy of the algorithm），梯度下降法可分为：

1. 批量梯度下降法（Batch Gradient Descent, BGD）；

2. 随机梯度下降法（Stochastic Gradient Descent, SGD）；

3. 小批量梯度下降法（Mini-Batch Gradient Descent, MBGD）。

批量梯度下降法原理

这是梯度下降法的基本类型，这种方法使用整个数据集（the complete dataset）去计算代价函数的梯度。每次使用全部数据计算梯度去更新参数，批量梯度下降法会很慢，并且很难处理不能载入内存（don’t fit in memory）的数据集。在随机初始化参数后，按如下方式计算代价函数的梯度：

e73e9a24fa64e4fb81246d312e0a1e6af5742cb9

其中，m是训练样本（training examples）的数量。

Note:

1. 如果训练集有3亿条数据，你需要从硬盘读取全部数据到内存中；

2. 每次一次计算完求和后，就进行参数更新；

3. 然后重复上面每一步；

4. 这意味着需要较长的时间才能收敛；

5. 特别是因为磁盘输入/输出（disk I/O）是系统典型瓶颈，所以这种方法会不可避免地需要大量的读取。

2cce4e74db8b0834f57cbaab8abe4ab7249305f3

上图是每次迭代后的等高线图，每个不同颜色的线表示代价函数不同的值。运用梯度下降会快速收敛到圆心，即唯一的一个全局最小值。批量梯度下降法不适合大数据集。

随机梯度下降法原理

批量梯度下降法被证明是一个较慢的算法，所以，我们可以选择随机梯度下降法达到更快的计算。随机梯度下降法的第一步是随机化整个数据集。在每次迭代仅选择一个训练样本去计算代价函数的梯度，然后更新参数。即使是大规模数据集，随机梯度下降法也会很快收敛。随机梯度下降法得到结果的准确性可能不会是最好的，但是计算结果的速度很快。在随机化初始参数之后，使用如下方法计算代价函数的梯度：