摘要: 目前没有整理完善,先留个坑~ Bert模型介绍 BERT的关键技术创新是将Transformers双向训练作为一种流行的注意力模型应用到语言建模中。Masked LM (MLM)在向BERT输入单词序列之前,每个序列中有15%的单词被[MASK]token替换。然后,该模型试图根据序列中其他非MAS 阅读全文
posted @ 2020-12-29 23:53 黄然小悟 阅读(799) 评论(2) 推荐(0) 编辑