不同的Bert模型
模型 | 发布方 | 参数 | 语料 | 特点 |
---|---|---|---|---|
BERT-base | 谷歌 | 12层,768层隐层,12个头,110M参数 | 16GB BERT Data(Books Corpus + Wikipedia), 3.3m words | 多语言 |
BERT-base-chinese | 谷歌 | 中文维基 | ||
BERT-wwm | 哈工大 | 中文维基 | 全词mask | |
BERT-wwm-ext | 哈工大 | 中文维基、百科、新闻、问答 | 全词mask | |
macBert | 在roberta的基础上做的优化。MLM as correction | |||
Roberta | 参数110M | 160GB(16GB BERT data + 144GB additional(CommonCrawlNews)) | Bert without NSP | |
DistilBERT | 参数是Bert的一般(放弃了标记类型与池化层) | 16GB BERT Data, 3.3m words | 性能达到95%,推理速度加快 | |
XLNet | 130GB文本 | 不同于Bert的按照顺序进行预测,XLNet是按照随机顺序预测 |
DistilBER 采用了蒸馏技术,即利用多个较小的神经网络共同构成大型神经网络。其中的原理在于,如果要训练一套大型神经网络,不妨先利用小型神经网络预估其完整的输出分布。这种方式有点类似于后验近似。正因为存在这样的相似性,DistilBERT 自然也用到了贝叶斯统计中用于后验近似的关键优化函数之一——Kulback Leiber 散度。