摘要: LayerNorm 一直是 Transformer 架构的重要组成部分。如果问大多人为什么要 LayerNorm,一般的回答是:使用 LayerNorm 来归一化前向传播的激活和反向传播的梯度。 其实这只是部分正确:Brody、Alon 和 Yahav 的一篇题为“On the Expressivi 阅读全文
posted @ 2023-05-16 09:55 deephub 阅读(30) 评论(0) 推荐(0) 编辑