摘要: transformer是谷歌2017年发表的 attention is all you need 中提到的seq2seq模型,我们常用的Bert和GPT等都是基于transformer衍生的。本文主要参考了wmathor大佬的Transformer 详解和Transformer 的 PyTorch 阅读全文
posted @ 2022-01-28 21:33 xingye_z 阅读(1604) 评论(0) 推荐(1) 编辑