深度学习-batch norm

批归一化，不仅可以用在输入层能够加速梯度下降，而且可以用在隐藏层Z^（i），另外可以改变其均值方差。

批量归一化为什么会奏效？

1、正规化，让每个维度有类似的大小范围，加快梯度下降，这只是浅层的原因

2、更进一步，由于批的分布变化可能会极不稳定，对后面的网络参数训练也不稳定，所有统一做成一个稳定的N（0，1）分布，使得每一层训练更加独立，这是更底层的东西。

例如，本来黑猫的图片来训练，后面优势彩色猫的图片，这时两者的分布不同，对后面的参数影响更大。所以限制在一定范围内N（0，1），更容易训练。

因为要归一化，所以不用b

posted @ 2021-10-01 11:13 踏浪前行阅读(71) 评论(0) 编辑收藏举报

刷新页面返回顶部