摘要: 最开始Attention只是人们的直觉,后来被第一次应用到机器翻译中的词对其任务中。Attention机制利用每个元素被赋予的重要性评分来对序列数据进行编码。目前Attention机制有很多的变体,并且应用到了不同的任务中如:情感分类、文本摘要、QA、依存分析等。总的来说,Attention机制可以得到一个上下文编码,这个编码是序列向量的加权求和,权重是归一化的attention分数。与查询向量匹配度高的向量被赋予更高的权重,所以Attention机制本质也是一种寻址机制。本文尝试总结Attention机制的原理及其各种变体...... 阅读全文
posted @ 2020-04-25 20:47 Oliver-,- 阅读(2991) 评论(0) 推荐(0) 编辑