卷积层后的batch normalization

每个通道上(单独计算,最后concat),一个batch内的所有样例的所有像素都参与平均。全连接中,是每个特征位置的所有scalar数值都参与求平均;卷积层中,是每个channel是一个特征,所有batchsz个样例里面的h*w个像素点矩阵作为全连接中的一个元素(一个feature上的scalar),全部放到参数里按数值求平均值。

最后BN后的结果:
全连接:[batchsz,num_features]-->[1,num_features]
卷积层:[batchsz,[num_channels,h,w]]-->1,[num_channels],因为第0维也要参与运算,所有该特征维度上所有样例的对应位置数值求mean、var,这里的位置就是指的是[h*w]。

加速收敛:

使得每个层的梯度变大一点(depends);每个层的梯度差不多一点,可以使用更大的学习率,这样对权重的更新变快。
加入随机性,batch。

posted @ 2021-11-28 11:09  zae  阅读(132)  评论(0编辑  收藏  举报