摘要: 一、注意力层(attention layer) 重要:本层主要就是根据论文公式计算token之间的attention_scores(QKT),并且做softmax之后变成attention_probs,最后再与V相乘。值得注意的是,中间利用了attention_mask的技巧,返回多头注意力值。 d 阅读全文
posted @ 2020-03-01 11:41 光彩照人 阅读(2504) 评论(0) 推荐(1) 编辑