Root Mean Square Layer Normalization

Zhang B. and Sennrich R. Root mean square layer normalization. NIPS, 2019.

RMSNorm 节省时间.

RMSNorm

  • 假设输入为 xRm, 然后

    a=WxRn,y=f(Norm(a)+b)Rn.

    其中 f() 是 element-wise 的激活函数.

  • LayerNorm 采取的是如下的方式 (注意, 下面的 / 是 element-wise 的):

    LayerNorm(a)=aμσg,

    其中

    μ=mean(a),σ=mean((aμ)2).

  • RMSNorm 采用的是如下的方式:

    RMSNorm(a)=aRMS(a)g,

    其中

    RMS(a)=mean(a2).

  • 由于不用计算均值, RMSNorm 所需的计算时间会少一点, 但是效果是差不多的:

  • 此外, RMSNorm 保留了一些重要的不变性:

代码

[official]

posted @   馒头and花卷  阅读(1486)  评论(2编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
历史上的今天:
2022-07-24 Commute Time Distance
2022-07-24 HOP-Rec: High-Order Proximity for Implicit Recommendation
点击右上角即可分享
微信分享提示