2023 年 5月 15 日随笔档案 - emanlee

2023年5月15日

摘要： BERT的创新在于Transformer Decoder（包含Masked Multi-Head Attention）作为提取器，并使用与之配套的掩码训练方法。虽然使用了双编码使得BERT不具有文本生成能力，但BERT在对输入文本的编码过程中，利用了每个词的所有上下文信息，与只能使用前序信息提取语义阅读全文

posted @ 2023-05-15 19:51 emanlee 阅读(98) 评论(0) 推荐(0) 编辑