BatchNorm(批标准化的好处)

传送门(Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 原文)

BN的基本思想:深层神经网络在做非线性变换前的激活输入值,随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,逐渐往非线性函数的取值区间的上下限两端靠近(比如Sigmoid),所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因,而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布

好处:

  • 减少了很多不合理的初始化问题,对于很坏的初始化有很强的的鲁棒性。
  • 避免了梯度消失,可以加快网络的收敛速度。
  • BN通常用于全连接层之后,非线性层之前。

看了一篇博文,讲的还是很不错的,给出传送门,方便复习。

 

posted @ 2020-07-16 16:13  Peterxiazhen  阅读(816)  评论(0编辑  收藏  举报