batch normalization 批归一化 --- 一个硬币的两面

2022.5.8最近温习了一下BN，把更白话的一些想法记录下来。

Batch Normalization
带来的好处更容易训练，对初始值更不敏感
但是这些是normalization带来的好处，不是batch带来了
事实上，batch带来了很多的坏处，最大的坏处就是他的均值和方差在训练的时候是在一个batch里面完成的，但是在test的时候，是需要估计的，带来了trainig和test的不一致性。注意啊，很多train和test时候表现不一致就跟这个BN有关系。

那么问题来了，首先为什么test的时候是需要估计的，跟训练一样，用每个样本的平均不行吗？
不行啊，因为真正在Inference的时候不可能再根据样本算一遍mean/var啊，最好是一个固定的值

那用什么值呢？
最好是用一个大的dataset的平均值嘛，所以呢标准做法是在整个training dataset上去做一次mean/var的计算，最直接的方法就是在训练完成后，固定住model，然后在整个dataset里算一次mean/var

这样可行吗？当然了，这就是precise batchnorm，事实上biggan里面就有用到这种方法，在G_ema算他的mean/var的时候
问题是什么？还要额外算一遍，计算量太大
为此，人们想出一种简单的方法，可以一边训练一边就得到mean/var，怎么做呢？就是ema平均大法，每次训练的时候把mean/var保存下来，跟前一次的结果做平滑，这样就可以在训练完成的时候得到一个还不错的估计了

为什么说还不错呢？
因为这个ema肯定是有滞后的，咱们一般训练的时候训练的iteration足够多，到最后其实weigths都不变了，那么其实就相当于fix住model，然后算一个dataset上的mean/var，还是不错的

最后说一下BN的妙用
可以根据不同的数据集用不同的BN，比如咱们的INS input switcable network就是通过不同的BN层去用同一套参数适应Both high/low resolution的input的。
BN层是网络中跟数据集直接对应的东西。有的时候，一个Model要处理不同的input 源，可以就通过BN层去干这个事情，比如自动驾驶中白天和黑夜两种场景，比如SR中一个模型要能应用于各种不同退化原因的Input。

------------------------------------------------original blog-------------------------------------------------------------------------------

本文主要是对BN(batch normalization)这篇论文的摘录，加上一些其他论文，辅助理解。

批归一化是在Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 这篇论文中提出的，主要的思想就是要将每一个隐藏神经元的输入变成是一个均值为0，方差为1的分布，便于加快training过程。

----------------------------------作者这么说----------------------------------------------------------------
具体实施是这样的

对于每一次的mini-batch会去算一波均值和方差，当然，这些x是针对一个神经元的输入了

在推断的过程中，也要做归一化，因为推断的时候只有一个样本输入，方差和均值的计算其实是之前的若干个mini-batch的均值和方差的平均。

在pytorch中，我们的track_running_stats参数就是用来决定说这一个batch的统计值（方差和均值）需要不需要纳入整体数据库的统计值的，

BN的momentum也是用来做这个事情的，决定的是纳入的权重系数。训练完成后，我们的均值和方差就算好了，可以用于inference。

这个地方需要注意的一点是，方差采用的是无偏估计，对每一个mini-batch，计算出来的方差用的是下面这个式子。不明白的是为什么这个地方采用无偏估计，而之前不采用呢，估计是为了引入noise，有一个类似drop out的作用？

具体在使用的过程中，BN这一层呢，一般是加在非线性层之前，就是relu之类的之前。不过很多人表示，在实际操作中，他们发现BN在relu之后loss可以达到更小值。a lot of debate.....

对于CNN网络来说，BN是一个feature map共用一个gamma和beta，因为默认不光是一个神经元的输入应该满足同一个分布，而是同一个feature map的都应该满足，所以如果feature map是q*p的大小，对于大小为m的mini-batch而言，其实是计算m*p*q的整个的均值和方差，而不是像之前只要计算m个input值的。

--------------------------------------------其他论文这么说-------------------------------------------------------------

下面看到的这个段落来自super resolution中著名的网络EDSR论文，在这篇论文中，作者没有用到BN，他们的说法是因为BN层会让特征被归一化，从而降低变化范围的自由度。他们的实验证明了去掉BN层会让图像细节部分表现更好。并且，他们表示，去掉了BN层之后，GPU的内存使用也被极大地减小了，因为BN层和卷积层占用一样多的内存。

posted @ 2018-12-08 17:43 sunny,lee 阅读(630) 评论(0) 编辑收藏举报

刷新页面返回顶部

sunny,lee

图像处理，机器学习，光学原理，GPU硬件

batch normalization 批归一化 --- 一个硬币的两面

公告