摘要:
除了之前较为流行的RELU激活函数,最近又新出了几个效果较好的激活函数 一、BERT激活函数 - GELU(gaussian error linear units)高斯误差线性单元 数学公式如下: X是服从标准正态分布的变量。 近似的数学计算公式如下: 函数图如下: 橙色曲线为:GELU 蓝色曲线为 阅读全文
摘要:
一、BERT整体结构 BERT主要用了Transformer的Encoder,而没有用其Decoder,我想是因为BERT是一个预训练模型,只要学到其中语义关系即可,不需要去解码完成具体的任务。整体架构如下图: 多个Transformer Encoder一层一层地堆叠起来,就组装成了BERT了,在论 阅读全文