【NeurIPS2022】Fast Vision Transformers with HiLo Attention

请添加图片描述

这个论文的核心贡献是提出了一种新的注意力机制 HiLo（High / Low frequency）。如下图所示，在上面部分，分配了 \(1-\alpha\) 比例的 head 用于提取高频注意力，下面分配了 \(\alpha\) 比例的 head 用于提取低频注意力。

请添加图片描述

高频注意力： 在2x2的窗口中计算 attention。

低频注意力： 将2x2的窗口池化，得到的特征做为 K 和 V。原始特征做为 Q，再计算注意力。（基本上和 PVT 中的计算方法一样）。因为 KV 特征维度减少，计算效率显著提升。

论文中还使用了一个 trick，使用 3x3 的 depth-wise conv 替换位置编码，这样不仅能引入 positional encoding，还能够增大网络前期的感受野。

posted @ 2022-12-03 20:20 高峰OUC 阅读(191) 评论(0) 编辑收藏举报

刷新页面返回顶部

OUC计算机科研狗