L04_机器学习：批次与动量

机器学习：批次(Batch)与动量(Momentum)

回顾：使用Batch进行最优化

在实际的最优化过程中，我们将很多的数据分成好多份，每一份算出一个 $L^{i}$ 出来，然后使用它迭代计算 $\mathbf{\theta}^{*}$ 。具体过程如下图所示：

$\textbf{update}$ ：是使用一个 $batch$ 中的数据训练出的 $L$ 迭代一次。

$\textbf{epoch}$ ：使用每一个 $batch$ 迭代过一次 $\mathbf{\theta}$ ，每一个epoch之后会重新分配batch进行训练（Shuffle）。

Small Batch v.s. Large Batch

假设总共有20个数据。(N=20)

Large Batch

每一批的数据大小为20个，也就是说不分批次训练（Full Batch）。这样的话，每次更新都是使用所有数据进行更新参数，每一次更新耗费时间较长，但是走的方向比较稳健，更容易向准确的方向走。

Small Batch

每一批数据的大小为1个，也就是说分成20个Batch。更新次数比较多，每一个epoch会更新20次。但是这样每一次更新找到的更新方向不会太准确。

但是，如果考虑并行Large Batch花费的时间不一定比Small Batch 花费的时间长。

具体训练效果对比

更新时间对比

通过对比可以发现，在batch大小在1000以内时，每一次更新时间相差无几，但是，当batch相对较大的时候，每一个epoch的更新次数就会减少，因此一个epoch所耗费的时间更少。

不同大小的batch训练出的模型的准确率对比

可以发现，小的Batch Size在训练模型上有更好的表现。而大的Batch Size表现不好是因为最优化失败。"Noisy"的更新对训练模型有帮助。

为什么小的Batch Size 会有比较好的结果？

对于Full Batch，只有一个损失函数，很容易就会卡在critical point上，但是Small Batch每一次进行更新所使用的损失函数是不一样的，可能参数更新卡在了Batch1的损失函数上，但是Batch2的损失函数可能就可以继续进行更新。因此，Noisy的Gradient有帮助

Small Batch在测试集上更好

当解决了Large Batch最优化的问题，从实际案例中可以发现训练时Small Batch和Large Batch得到几乎一样的结果，但是测试阶段Small Batch表现的更好。

Small Batch更好的原因

具体的原因有待研究，但是现在有一种解释方法。

对于局部最小值也有好有坏，比如认为平原(Flat Minima)就要比峡谷(Sharp Minima)更好。如上图所示，假设测试损失函数相比于训练损失函数有一点小小的平移，那么对于平原来说影响并不是很大，但是对于峡谷来说，一个微小的移动就会使测试损失函数发生较大的变化。一般认为Small Batch更新的方向比较Noisy，不容易进入峡谷的狭口里边，而Large Batch更新方向比较稳定，很容易就会进入到峡谷里边。