摘要: BERT的创新在于Transformer Decoder(包含Masked Multi-Head Attention)作为提取器,并使用与之配套的掩码训练方法。虽然使用了双编码使得BERT不具有文本生成能力,但BERT在对输入文本的编码过程中,利用了每个词的所有上下文信息,与只能使用前序信息提取语义 阅读全文
posted @ 2023-05-15 19:51 emanlee 阅读(98) 评论(0) 推荐(0) 编辑