摘要: transformer最知名的应用就是BERT,BERT就是无监督训练的transformer,transformer就是具有Self-attention的Seq2Seq模型。 RNN常用于处理输入和输出都是sequence的任务,因为RNN是通过遍历输入的sequence而逐步输出一个sequen 阅读全文
posted @ 2021-05-23 09:11 臭咸鱼 阅读(223) 评论(0) 推荐(0) 编辑