不同的Bert模型

模型 发布方 参数 语料 特点
BERT-base 谷歌 12层,768层隐层,12个头,110M参数 16GB BERT Data(Books Corpus + Wikipedia), 3.3m words 多语言
BERT-base-chinese 谷歌 中文维基
BERT-wwm 哈工大 中文维基 全词mask
BERT-wwm-ext 哈工大 中文维基、百科、新闻、问答 全词mask
macBert 在roberta的基础上做的优化。MLM as correction
Roberta Facebook 参数110M 160GB(16GB BERT data + 144GB additional(CommonCrawlNews)) Bert without NSP
DistilBERT 参数是Bert的一般(放弃了标记类型与池化层) 16GB BERT Data, 3.3m words 性能达到95%,推理速度加快
XLNet 130GB文本 不同于Bert的按照顺序进行预测,XLNet是按照随机顺序预测

DistilBER 采用了蒸馏技术,即利用多个较小的神经网络共同构成大型神经网络。其中的原理在于,如果要训练一套大型神经网络,不妨先利用小型神经网络预估其完整的输出分布。这种方式有点类似于后验近似。正因为存在这样的相似性,DistilBERT 自然也用到了贝叶斯统计中用于后验近似的关键优化函数之一——Kulback Leiber 散度。

posted @ 2023-03-07 15:53  地球美好不  阅读(27)  评论(0编辑  收藏  举报