摘要:
BN: 1.在神经网络中,防止梯度爆炸梯度消失,使用了batch normalization 2. 该方法是对一个batch的vectors的每一维度,比如100个输入向量的第1维,进行方差,均值的计算,然后 x = x-均值/方差 的操作 LN: 1. 在Tranformer中,对每一次的mult 阅读全文
摘要:
1. 首先我们的目标函数是 最大似然估计,需要计算的是P(Y|X),即为给定vector x 的情况下,输出vector为Y的概率 1) 根据下图公式,我们可以看出,例如输入为 'we',输出为汉字的情况下,我们需要穷举计算所有汉字计算分母,是不可能的 2)所以将其优化为RNN的概率连乘 2. 最简 阅读全文