博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2021年10月19日

摘要: Attention Is All You Need 模型结构 Encoder Encoder是有N=6层的一个整体。是这6层按顺序走下来的一个整体。 每层有两个子层。分别是多头自注意力和全连接前馈网络。 对于每个子层,先采用残差连接,后采用layer normalization \(LayerNor 阅读全文

posted @ 2021-10-19 13:58 Antel 阅读(135) 评论(0) 推荐(0) 编辑