不同的Bert模型

模型	发布方	参数	语料	特点
BERT-base	谷歌	12层，768层隐层，12个头，110M参数	16GB BERT Data(Books Corpus + Wikipedia), 3.3m words	多语言
BERT-base-chinese	谷歌		中文维基
BERT-wwm	哈工大		中文维基	全词mask
BERT-wwm-ext	哈工大		中文维基、百科、新闻、问答	全词mask
macBert				在roberta的基础上做的优化。MLM as correction
Roberta	Facebook	参数110M	160GB（16GB BERT data + 144GB additional（CommonCrawlNews））	Bert without NSP
DistilBERT		参数是Bert的一般（放弃了标记类型与池化层）	16GB BERT Data, 3.3m words	性能达到95%，推理速度加快
XLNet			130GB文本	不同于Bert的按照顺序进行预测，XLNet是按照随机顺序预测

DistilBER 采用了蒸馏技术，即利用多个较小的神经网络共同构成大型神经网络。其中的原理在于，如果要训练一套大型神经网络，不妨先利用小型神经网络预估其完整的输出分布。这种方式有点类似于后验近似。正因为存在这样的相似性，DistilBERT 自然也用到了贝叶斯统计中用于后验近似的关键优化函数之一——Kulback Leiber 散度。

posted @ 2023-03-07 15:53 地球美好不阅读(27) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

AudreyXu

不同的Bert模型

公告