Transformer结构心得(来自莫烦Python)

Transformer中主要运用Query、Key和Value三个矩阵

想象这是一个相亲画面,我有我心中有个喜欢女孩的样子,我会按照这个心目中的形象浏览各个女孩的照片,如果一个女生的样貌很想我心中的样子,我就会注意到这个人,并安排一段稍微长一点的时间阅读她的详细资料,反之我就会安排少一点时间看的材料。这样我就能将“注意力”放在我文卫满足条件的候选人身上了。我心中女神的样子就是Query,我拿着Query去和所有的候选人(key)做对比,得到一个要注意的成都(attention),根据这个程度判断我要花多久时间仔细阅读候选人的材料(Value)。这个就是Transform的注意力方式。

posted @ 2020-09-23 17:01  江湖小菜鸡  阅读(514)  评论(0编辑  收藏  举报