为什么llama用RMSnorm而不是layernorm

来源:Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm-CSDN博客

 

posted on 2024-02-02 11:30  nlp如此迷人  阅读(215)  评论(0编辑  收藏  举报

导航