摘要: 简介 该论文提出一种新的简单的网络架构Transformer,仅基于attention机制并完全避免循环和卷积。 对两个机器翻译任务的实验表明,这些模型在质量上更加优越、并行性更好并且需要的训练时间显著减少。 在各种任务中,attention机制已经成为序列建模和转导模型不可或缺的一部分,它可以建模 阅读全文
posted @ 2020-03-26 22:07 尔玉 阅读(346) 评论(0) 推荐(0) 编辑