摘要:Attention Is All You Need 模型结构 Encoder Encoder是有N=6层的一个整体。是这6层按顺序走下来的一个整体。 每层有两个子层。分别是多头自注意力和全连接前馈网络。 对于每个子层,先采用残差连接,后采用layer normalization \(LayerNor
阅读全文
posted @ 2021-10-19 13:58
10 2021 档案
摘要:Attention Is All You Need 模型结构 Encoder Encoder是有N=6层的一个整体。是这6层按顺序走下来的一个整体。 每层有两个子层。分别是多头自注意力和全连接前馈网络。 对于每个子层,先采用残差连接,后采用layer normalization \(LayerNor
阅读全文
posted @ 2021-10-19 13:58
|
||