batch normalization / layer normalization
BN:
1.在神经网络中,防止梯度爆炸梯度消失,使用了batch normalization
2. 该方法是对一个batch的vectors的每一维度,比如100个输入向量的第1维,进行方差,均值的计算,然后 x = x-均值/方差 的操作
LN:
1. 在Tranformer中,对每一次的multi-head的输出向量,对每个向量计算其方差,均值,然后标准化
BN:
1.在神经网络中,防止梯度爆炸梯度消失,使用了batch normalization
2. 该方法是对一个batch的vectors的每一维度,比如100个输入向量的第1维,进行方差,均值的计算,然后 x = x-均值/方差 的操作
LN:
1. 在Tranformer中,对每一次的multi-head的输出向量,对每个向量计算其方差,均值,然后标准化