摘要:
1. How to make self-attention efficent? 当我们的输入序列非常长时,self-attention会主导整个网络的计算! 方式一:Local Attention / Truncated Attention 方式二:Stride Attention 方式三:Glob 阅读全文
摘要:
1. Seq2seq Transformer是一种Seq2seq模型 2. Model Architecture A. Encoder B. Decoder (AT & NAT) 由于Decoder是一个一个vector输出的,因此self-attention转变为了masked self-atte 阅读全文