Swin Transformer 马尔奖论文（ICCV 2021最佳论文）

简介
- 文章内容：
方法

简介

作者之一的微软亚研院的首席研究员胡瀚老师在bibili讲过该论文
使用Transformer完全取代CNN

该文章提出的Swin Transformer可以被当做通用的骨干网络用于多种下游视觉任务。

文章内容：

Swin 即 Shifted window:它在本地窗口进行自注意力计算并允许在两个layers之间进行跨窗口的连接
这就使得将自注意力限制在不重叠的块中。
这种分层结构可以灵活运行不同的图像尺度。并且计算复杂度与图像大小成线性关系（而非二次增长）。

先使用\(4 \times 4\) 个小patch为一组，然后在前向传播过程中不断patch merging(相当于CNN的池化)

方法

局部窗口的自注意力计算：图像被非重叠的均匀分割，每次将\(4 \times 4\)个patch为一组，进行自注意力的计算，而非对全局图像同时计算。
但是这种局部的注意力计算，缺乏跨窗口的沟通，限制了其建模能力。为此，提出移动窗口的方法。
移动窗口操作：
每次计算完自注意力后，将窗口循环移位，做一次注意力然后再放回。

计算过程如下

posted @ 2023-12-13 16:47 浪矢-CL 阅读(41) 评论(0) 编辑收藏举报

刷新页面返回顶部

浪矢\n

Swin Transformer 马尔奖论文（ICCV 2021最佳论文）

简介

文章内容：

方法

公告