为什么大型语言模型都在使用 SwiGLU 作为激活函数?

如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。

我们一个一个来介绍:

https://avoid.overfit.cn/post/984f034bb67e4353ad2cf358d1e38f2e

posted @ 2024-04-08 10:09  deephub  阅读(88)  评论(0编辑  收藏  举报