PaLM中使用的激活函数:SwiGLU
relu激活函数:
GeLU激活函数:
其中erf为误差函数。
Swish激活函数:
我们不难发现,激活函数就是对x乘以一些数,以对某些值进行约束。
GLU(Gated Linear Unit),其一般形式为:
这里的可以是函数,也可以是其它的一些激活函数,其相关变体如下:
在PaLM论文中使用了SwiGLU激活函数。
在FFN中,即FC-激活函数-FC中,一般定义如下:
在T5论文中没有使用偏置项,也就是:
同理可得:
结合激活函数+未使用偏置项+GLU就得到:
这就是PaLM中的激活函数了,效果也是不错的:
GLU Variants Improve Transformer
Pathways: Asynchronous Distributed Dataflow for ML
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2020-02-06 今天参考别人对自己博客进行了美化,记录一下。
2020-02-06 什么是ip地址、子网掩码、网关和DNS?
2020-02-06 linux之VMware联网的三种方式
2020-02-06 linux之使用VMWare的桥接模式使主机和虚拟机中系统进行通讯
2020-02-06 关于我博客中的猫是怎么设置的说明
2020-02-06 linux之解决使用VMWare安装centos7后无法联网问题