为什么大型语言模型都在使用 SwiGLU 作为激活函数?

如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。

我们一个一个来介绍:

https://avoid.overfit.cn/post/984f034bb67e4353ad2cf358d1e38f2e

posted @   deephub  阅读(460)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-04-08 7个最新的时间序列分析库介绍和代码示例
2022-04-08 假设检验中的第一类错误和第二类错误
2020-04-08 假新闻无处不在:我创建了一个通深度学习的方法标记假新闻的开源项目
点击右上角即可分享
微信分享提示