Bert及变种简述

BERT:

老大哥模型,模型的两个目标MLM和NSP,采用静态Masking(模型预训练之前已经确定了Masking的位置)

ALBERT:

bert模型的精简版本,参数更少,训练更快,主要有以下改动:

 

  1. 矩阵分解。词向量V到encoder全连接M进行分解,bert中参数量:V*M,ALBERT:V*H+M*H=(V+M)*H,H可以比较小,因为词的数目有限的,和下游的语义相比可以有更小的维度
  2. 贡献权重。encoder权重贡献(当然也可以只共享Multi-head attention或者feed forwa neural network)
  3. SOP代替NSP。NSP是第二个句子通过采样获得,预测其是不是后面一个句子;SOP,将前后两个句子颠倒,预测句子的顺序

span BERT:

 

参考https://zhuanlan.zhihu.com/p/75893972

fast BERT:

 

参考链接:https://mp.weixin.qq.com/s/TtpD3EEXWQUkvfB1AVl7ig

 

其他的以后再写吧。。。。 

posted @ 2020-04-14 11:02  母翟龙  阅读(1256)  评论(0编辑  收藏  举报