摘要: 主流的序列到序列模型都是基于含有encoder和decoder的复杂的循环或者卷积网络。而性能最好的模型在encoder和decoder之间加了attentnion机制。本文提出一种新的网络结构,摒弃了循环和卷积网络,仅基于attention机制。 self-attention是一种attentio 阅读全文
posted @ 2019-07-28 22:50 zhaop 阅读(338) 评论(0) 推荐(0) 编辑