摘要: | 模型 | 发布方 |参数 |语料| 特点| | | | | | | |BERT-base | 谷歌|12层,768层隐层,12个头,110M参数| 16GB BERT Data(Books Corpus + Wikipedia), 3.3m words|多语言| | BERT-base-chin 阅读全文
posted @ 2023-03-07 15:53 地球美好不 阅读(178) 评论(0) 推荐(0)
摘要: Whole Word Masking 翻译成全词Mask,是一种预训练阶段的训练样本生成策略。最原始的分词方式是基于WordPiece子词,它会把完整的一个词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被Mask。在全词Mask中,如果一个完整的词的部分WordPiece子词被mask 阅读全文
posted @ 2023-03-07 11:14 地球美好不 阅读(303) 评论(0) 推荐(0)