摘要: 如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。 我们一个一个来介绍: ht 阅读全文
posted @ 2024-04-08 10:09 deephub 阅读(388) 评论(0) 推荐(0) 编辑