Vision Transformers的注意力层概念解释和代码实现

2017年推出《Attention is All You Need》以来，transformers 已经成为自然语言处理(NLP)的最新技术。2021年，《An Image is Worth 16x16 Words》，成功地将transformers 用于计算机视觉任务。从那时起，许多基于transformers的计算机视觉体系结构被提出。

本文将深入探讨注意力层在计算机视觉环境中的工作原理。我们将讨论单头注意力和多头注意力。它包括注意力层的代码，以及基础数学的概念解释。

在NLP应用中，注意力通常被描述为句子中单词(标记)之间的关系。而在计算机视觉应用程序中，注意力关注图像中patches (标记)之间的关系。

有多种方法可以将图像分解为一系列标记。原始的ViT²将图像分割成小块，然后将小块平摊成标记。《token -to- token ViT》³开发了一种更复杂的从图像创建标记的方法。

https://avoid.overfit.cn/post/0d526cd56c8842c599b4fe1c9adcfd9f

posted @ 2024-03-04 10:42 deephub 阅读(25) 评论(0) 编辑收藏举报

刷新页面返回顶部

deephub

overfit深度学习

Vision Transformers的注意力层概念解释和代码实现

公告