卷积层后的batch normalization
每个通道上(单独计算,最后concat),一个batch内的所有样例的所有像素都参与平均。全连接中,是每个特征位置的所有scalar数值都参与求平均;卷积层中,是每个channel是一个特征,所有batchsz个样例里面的h*w个像素点矩阵作为全连接中的一个元素(一个feature上的scalar),全部放到参数里按数值求平均值。
最后BN后的结果:
全连接:[batchsz,num_features]-->[1,num_features]
卷积层:[batchsz,[num_channels,h,w]]-->1,[num_channels],因为第0维也要参与运算,所有该特征维度上所有样例的对应位置数值求mean、var,这里的位置就是指的是[h*w]。
加速收敛:
使得每个层的梯度变大一点(depends);每个层的梯度差不多一点,可以使用更大的学习率,这样对权重的更新变快。
加入随机性,batch。