2020 年 9月 29 日随笔档案 - ChevisZhang

2020年9月29日

batch normalization / layer normalization

摘要： BN： 1.在神经网络中，防止梯度爆炸梯度消失，使用了batch normalization 2. 该方法是对一个batch的vectors的每一维度，比如100个输入向量的第1维，进行方差，均值的计算，然后 x = x-均值/方差的操作 LN： 1. 在Tranformer中，对每一次的mult 阅读全文

posted @ 2020-09-29 18:56 ChevisZhang 阅读(121) 评论(0) 推荐(0) 编辑

self-attention Transformer

摘要： 1. 首先我们的目标函数是最大似然估计，需要计算的是P（Y|X），即为给定vector x 的情况下，输出vector为Y的概率 1）根据下图公式，我们可以看出，例如输入为 'we'，输出为汉字的情况下，我们需要穷举计算所有汉字计算分母，是不可能的 2）所以将其优化为RNN的概率连乘 2. 最简阅读全文

posted @ 2020-09-29 16:18 ChevisZhang 阅读(126) 评论(0) 推荐(0) 编辑

ChevisZhang

公告