随笔档案「2023年3月7日」：不同的Bert模型 ... - 地球美好不

2023年3月7日

摘要： | 模型 | 发布方 |参数 |语料| 特点| | | | | | | |BERT-base | 谷歌|12层，768层隐层，12个头，110M参数| 16GB BERT Data(Books Corpus + Wikipedia), 3.3m words|多语言| | BERT-base-chin 阅读全文

posted @ 2023-03-07 15:53 地球美好不阅读(178) 评论(0) 推荐(0)

什么是Whole Word Masking

摘要： Whole Word Masking 翻译成全词Mask，是一种预训练阶段的训练样本生成策略。最原始的分词方式是基于WordPiece子词，它会把完整的一个词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被Mask。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask 阅读全文

posted @ 2023-03-07 11:14 地球美好不阅读(303) 评论(0) 推荐(0)

AudreyXu

公告