摘要: 一、提出背景 因为之前的LSTM、GRU等RNN的结构,虽然一定程度上解决了长程依赖的问题,但是还是没有根本解决超过一定范围的长程依赖问题。并且,RNN的顺序计算使得模型训练速度慢的问题。 提出Tranformer:1、并行计算,大大减少训练时间,摒弃了RNN、CNN的使用。 2、仅仅依赖多头自注意 阅读全文
posted @ 2021-09-26 20:49 踏浪前行 阅读(161) 评论(0) 推荐(0) 编辑