深度学习-batch norm

批归一化,不仅可以用在输入层能够加速梯度下降,而且可以用在隐藏层Z(i),另外可以改变其均值方差。

批量归一化为什么会奏效? 

1、正规化,让每个维度有类似的大小范围,加快梯度下降,这只是浅层的原因

2、更进一步,由于批的分布变化可能会极不稳定,对后面的网络参数训练也不稳定,所有统一做成一个稳定的N(0,1)分布,使得每一层训练更加独立,这是更底层的东西。

   例如,本来黑猫的图片来训练,后面优势彩色猫的图片,这时两者的分布不同,对后面的参数影响更大。所以限制在一定范围内N(0,1),更容易训练。

 

 

 

因为要归一化,所以不用b

 

posted @ 2021-10-01 11:13  踏浪前行  阅读(71)  评论(0编辑  收藏  举报