Fork me on GitHub

PaLM中使用的激活函数:SwiGLU

relu激活函数:

ReLU(x)=max(0,x)

GeLU激活函数:

GeLU=xΦ(x)=xx12πet22dt=x12[1+erf(x2)]

其中erf为误差函数。
Swish激活函数:

Swish=xsigmoid(βx)

我们不难发现,激活函数就是对x乘以一些数,以对某些值进行约束。
GLU(Gated Linear Unit),其一般形式为:

GLU(x)=σ(Wx+b)(Vx+c)

这里的σ可以是sigmoid函数,也可以是其它的一些激活函数,其相关变体如下:

在PaLM论文中使用了SwiGLU激活函数。
在FFN中,即FC-激活函数-FC中,一般定义如下:

在T5论文中没有使用偏置项,也就是:

同理可得:

结合激活函数+未使用偏置项+GLU就得到:

这就是PaLM中的激活函数了,效果也是不错的:

GLU Variants Improve Transformer
Pathways: Asynchronous Distributed Dataflow for ML

posted @   西西嘛呦  阅读(5302)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2020-02-06 今天参考别人对自己博客进行了美化,记录一下。
2020-02-06 什么是ip地址、子网掩码、网关和DNS?
2020-02-06 linux之VMware联网的三种方式
2020-02-06 linux之使用VMWare的桥接模式使主机和虚拟机中系统进行通讯
2020-02-06 关于我博客中的猫是怎么设置的说明
2020-02-06 linux之解决使用VMWare安装centos7后无法联网问题
点击右上角即可分享
微信分享提示