2.2 类神经网路训练不起来怎么办 (二)：批次 (batch) 与动量 (momentum)

1. Batch(批次)

对抗临界点的两个方法就是batch 和 momentum

将一笔大型资料分若干批次计算 loss 和梯度,从而更新参数.每看完一个epoch就把这笔大型资料打乱(shuffle),然后重新分批次.这样能保证每个epoch中的 batch 资料不同,避免偶然性.

epoch是指将数据集分成batch后,将所有batch训练一遍,就是一个epoch

那么,为什么使用\(batch\)呢?

1.1 大小批次的运算时间对比

下图是两种\(batch\)的情况,第一种是\(full\) \(batch\),所有数据集都归于一个\(Batch\).第二种是极端的反面,一次只看一笔训练资料.

设大批次含有20笔资料,小批次含有1笔资料，那么大批次就是看完20笔资料后再更新参数,而小批次则是看1笔资料就更新一次参数，总共更新20次.我们可以看到大批次的单次运算时间长但效果好,小批次的单次运算时间短但效果差,需要运算多次效果才好.可以把大批次想象成迫击炮，小批次想象成加特林.
但是大批次时间长是没有考虑使用\(gpu\)(并行运算)的结果.如果采用GPU就可以做平行运算，从下图运算结果可以看出来：含有10笔资料和含有1000笔资料的批次,每次更新的运算时间差不多,但是含有的资料再增加,超过\(gpu\)的承受能力,运算时间就会急剧增加了.

刚刚讲的运算时间是针对单次更新.而在1 个 epoch 中,小批次反而耗时更长,大批次耗时更短.原因是:同样是60000笔资料,小批次要更新60000次,而大批次只要更新60次,一次更新花费的时间又是差不多的,最后叠加起来肯定是大批次耗时更少.

总结:没有平行运算时,单次更新大批次耗时更长;有平行运算时,单次更新大小批次耗时差不多,而 1 个 epoch中大批次耗时更短.

1.2 大小批次的性能对比

小批次有更好的性能.由图可知同一个模型,同一个网络,\(training\)误差随着\(batch\) \(size\)的增大而增大,\(testing\)的误差也是.如果是 model bias 的问题，那么在 size 小的时候也会表现差，而不会等到 size 变大才差.同样也不是过拟合问题,因为在这张图上并没有改变模型,按道理模型能表示的function space是一样的.所以这是Optimization issue(优化问题)导致大批次性能差.

1.2.1 为什么small batch训练结果会比较好

每次更新的时候，用的\(loss\)函数会有差异(如右图),因为不同的 batch 用不同的 loss function.换了个 loss 函数就更不容易卡住.

个人理解:我们绿色那条线是根据第一个Batch作的loss曲线,那么参数的更新方向也是根据第一个\(batch\)的数据更新.当运行到第二个batch时,数据点变化了,曲线也就变化了,所以当前参数在曲线上的位置也变化了.

1.2.2 为什么small batch测试结果会比较好

那这边还有另外一个更神奇的事情,其实小的 Batch 也对 Testing 有帮助.
data set的大小是60000.上面的例子在Traning和Testing是一起下降,而这里不一样.红框框中可以看出在训练时 SB（小批次）和 LB（大批次）的准确率都高，但是在testing 时,SB的准确率还是比较高，而LB的准确率则更差点，此时 LB面临的问题是overfitting.

那么为什么会有这种测试集过拟合的现象?有一个猜想如下(还没有试验证明的).
训练和测试时的数据分布有差异，所以两者的 loss 也有差异(如下图).小批次是在平滑的最低点,大批次是在陡峭的最低点,只要 testing loss 有一点变化，陡峭处就会发生大变化,从而导致大批次在测试时表现不好.
至于为什么大批次会让模型走到陡峭的最低点,这是很多人的说法,直觉是小batch很容易变动,陡峭的最低点没有办法困住小batch,而平原上的最低点才有可能困住小batch,还没有证明.

总结:小批次在 1 个 epoch 中的速度很慢，耗时很长，但是小批次在优化过程性能更好,在测试时的性能也更好.而批次大小是一个超参数,需要自行设定.

2. Momentum(动量)

2.1 Momentum如何使用在梯度下降中

在物理中,重物借用惯性,能够滚得更远.将这种思想应用于梯度下降中,用这种思想能使参数越过临界点!!

我们先复习一下原来的Gradient Descent是怎么运作的.即往梯度移动的反方向更新参数.

特点:在更新现在的梯度下降方向的时候，每一次仅利用前一次的梯度下降方向.

而 momentum 则是在gradient 的反方向上加上上一步的方向(在式子中用 m表示),这两个方向是向量相加,用平行四边形法则.上一步的方向就相当于惯性力量.
在更新现在的梯度下降方向的时候,考虑在此之前计算过的所有的梯度下降方向.注意看图,下一次下降方法考虑了上一次的方向和本次梯度下降方向,取了两者的折中.