摘要: 注意力往往与encoder-decoder(seq2seq)框架搭在一起,假设我们编码前与解码后的序列如下: 编码时,我们将source通过非线性变换到中间语义: 则我们解码时,第i个输出为: 可以看到,不管i为多少,都是基于相同的中间语义C进行解码的,也就是说,我们的注意力对所有输出都是相同的。所 阅读全文
posted @ 2019-09-10 11:05 我的锅 阅读(10934) 评论(1) 推荐(2) 编辑