摘要:
| 模型 | 发布方 |参数 |语料| 特点| | | | | | | |BERT-base | 谷歌|12层,768层隐层,12个头,110M参数| 16GB BERT Data(Books Corpus + Wikipedia), 3.3m words|多语言| | BERT-base-chin 阅读全文
posted @ 2023-03-07 15:53
地球美好不
阅读(178)
评论(0)
推荐(0)
摘要:
Whole Word Masking 翻译成全词Mask,是一种预训练阶段的训练样本生成策略。最原始的分词方式是基于WordPiece子词,它会把完整的一个词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被Mask。在全词Mask中,如果一个完整的词的部分WordPiece子词被mask 阅读全文
posted @ 2023-03-07 11:14
地球美好不
阅读(303)
评论(0)
推荐(0)

浙公网安备 33010602011771号