09 2024 档案

摘要:一、Vanilla Transformer(Post-LN Transformer) 1. model architecture Transformer的结构也是一个encoder-decoder结构,其中,encoder和decoder是使用self-attention和全连接层堆叠的结构,如图1 阅读全文
posted @ 2024-09-08 10:22 指间的执着 阅读(63) 评论(0) 推荐(0) 编辑