摘要: 会议/期刊: ICML 年份: 2022 # 1. Vanilla Transformer Block(MHSA+FFN) 原本的Transformer的Block遵循如下的设计范式:MHSA(多头自注意力)+ 一层或者两层的FFN(全连接层),如下图所示。我们只考虑FFN的话,其数学表达式如下:T 阅读全文
posted @ 2023-06-24 09:49 marsggbo 阅读(624) 评论(0) 推荐(0) 编辑