Bert及变种简述

BERT：

老大哥模型，模型的两个目标MLM和NSP，采用静态Masking（模型预训练之前已经确定了Masking的位置）

ALBERT：

bert模型的精简版本，参数更少，训练更快，主要有以下改动：

矩阵分解。词向量V到encoder全连接M进行分解，bert中参数量：V*M，ALBERT：V*H+M*H=（V+M）*H，H可以比较小，因为词的数目有限的，和下游的语义相比可以有更小的维度
贡献权重。encoder权重贡献（当然也可以只共享Multi-head attention或者feed forwa neural network）
SOP代替NSP。NSP是第二个句子通过采样获得，预测其是不是后面一个句子；SOP，将前后两个句子颠倒，预测句子的顺序

span BERT：

参考https://zhuanlan.zhihu.com/p/75893972

fast BERT：

参考链接：https://mp.weixin.qq.com/s/TtpD3EEXWQUkvfB1AVl7ig

其他的以后再写吧。。。。

posted @ 2020-04-14 11:02 mzl123 阅读(1325) 评论(0) 收藏举报

刷新页面返回顶部