转:batch normalization, instance normalization, layer normalization, group normalization
batch normalization, instance normalization, layer normalization, group normalization (知乎)
batch normalization, instance normalization, layer normalization, group normalization比较 (博客)
Transformer 使用 LayerNorm 不用 BatchNorm的原因 (CSDN)
Batch Normalization 强行让一个batch的数据的某个channel的数据分布符合高斯分布。
Layer Normalization 强行让一个数据的所有channel的数据分布符合高斯分布。
layer normalization详细介绍: