关于BarchNorm的一些学习

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

1、Batch Normalization 并不能缓解深度网络梯度爆炸问题，反而是梯度爆炸的原因。一般通多跳跃连接，或者残差连接解决这个问题。参考论文《A Mean Field Theory of Batch Normalization》

2、Batch Normalization 成功的一个原因可能是将权重向量进行了解耦，分别解耦成方向和长度，然后分别训练。这可以加快收敛

3、Batch Normalization 并不能缓解内部协变量偏移。参考论文《How Does Batch Normalization Help Optimization?》，这篇文章也在一定程度上解释了这个问题。

4、Batch Normalization 另一个成功的原因可能是产生了更平滑的参数空间和更平滑的梯度。参考论文《How Does Batch Normalization Help Optimization?》

5、Batch Normalization 可以缓解梯度消失问题。在网络层数加深的时候，会影响我们每一层输出的数据分布。而之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（以Sigmoid函数为例），所以这导致后向传播时低层神经网络的梯度很小甚至消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，所以就可以让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

6、Batch Normalization：训练阶段使用Batch Normalization，推理阶段不使用Batch Normalization（由于在推理阶段，输入实例只有一个，看不到Mini-Batch其他实例，所以无法得到均值和方差。但是我们可以从训练实例中获得Mini-Batch里面m个训练实例获得的均值和方差的统计量。我们可以获取到训练实例全局统计量，对这些均值和方差求出其对应的数学期望，就可以得到我们需要的均值和期望，然后利用每个层已经有对应训练好的scale和shift，就可以在推理阶段对每个神经元的激活数据计算NB进行变换了。

posted @ 2022-05-19 22:29 九叶草阅读(65) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

九叶草

个人博客：https://opencc.icu/

关于BarchNorm的一些学习

公告