批标准化(Batch Norm)

通过归一化输入值/隐藏单元值，以获得类似的范围值，可加速学习。
限制了在前层的参数更新会影响数值分布的程度，使层的输出更加稳定，神经网络的之后的层就会有更坚实的基础（减弱了后层的参数因前层参数发生变化而受到的影响） **减弱了前层参数的作用与后层参数的作用之间的联系，使得网络每层都可以自己学习，稍稍独立于其他层，有助于加速整个网络的学习。 **

对于Dropout来讲，给每个隐藏单元一定概率置零的可能，这样就相当于给网络引入了噪声。迫使Dropout后部单元不过分依赖于前面任何一个隐藏单元。

而BN，因为是在Mini-batch上计算mean、variance，而不是整个数据集上。均值和方差有一些小噪音，在进行缩放过程，γ、β也会引入噪声，这样和dropout类似，它往每个隐藏层的激活值上增加了噪音，所以起到了一定的正则化作用。

当mini-batch变大时，由于均值方差更加接近真实值，所以噪声会减小，就会减少正则化的效果。

\[Z=WX+b \]

无论b为何值，去均值之后结果都是一样的，所以说，使用Batch Norm时可以不使用偏置b。
这个偏置的效果在标准化中缩放过程中能体现。

\[\tilde{Z} = \gamma Z+\beta \]

posted @ 2018-01-06 23:26 郭耀华阅读(1661) 评论(0) 收藏举报

刷新页面返回顶部

郭耀华's Blog