IncepFormer：用于语义分割的高效inception transformer

前言语义分割通常得益于全局上下文、精细定位信息、多尺度特征等。为了在这些方面改进基于Transformer的分割器，本文提出了一种简单而强大的语义分割架构——IncepFormer。
IncepFormer介绍了一种新颖的金字塔结构Transformer编码器，它同时获取全局上下文和精细定位特征。IncepFormer还集成了具有深度卷积的类Inception架构，以及每个自注意力层中的轻量级前馈模块，有效地获得了丰富的局部多尺度对象特征。

Transformer、目标检测、语义分割交流群

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

【百篇论文阅读计划】新升级!

论文：https://arxiv.org/pdf/2212.03035.pdf

代码：http://github.com/shendu0321/IncepFormer

论文创新思路

ViT的局限性：

1）标准的自我注意力机制带来了大量的计算复杂性，与输入token的数量成二次方。

2） ViT的输出特征图是单尺度的，这可能导致提取的特征缺乏丰富的上下文信息。

为了解决这些问题， Transformer模型采用降采样策略来减少特征大小，从而设计出一种分层编码器架构。金字塔视觉transformer（PVT）是第一个将金字塔结构用于密集预测的工作。之后，Xie等人提出了Mix Transformer（MiT），这也是一种金字塔结构，显示出在语义分割方面比SETR对应物有相当大的改进。Swin Transformer是另一种流行的分层视觉transformer，它计算局部窗口中的自我注意力度，并根据图像大小产生线性复杂度。

然而，这些方法只考虑了跨阶段/层的多尺度性质，而忽略了一个注意力层内对象的多尺度特性，即自我注意力多尺度，导致无法捕获不同大小对象中的丰富特征。

为了解决上述局限性，本文引入了一种新颖且通用的Transformer框架，即语义分割的高效Inception Transformer和Pyramid Pooling（IncepFormer）。

本文的主要贡献

•金字塔transformer编码器，它不仅考虑了不同阶段的特征图中的多尺度，还通过类似于初始的架构将多尺度性质纳入了自我注意力机制中。

•一个简单但功能强大的上采样 Concat解码器，它以极低的计算成本合并了精细定位和全局上下文信息。

•本文的IncepFormer设计了三种不同尺寸的版本。如图1所示， IncepFormer在ADE20K数据集上实现了性能和计算成本之间的最佳权衡。

图1 ADE20K验证集的性能参数曲线。

方法

如图2（a）所示，InceptFormer由两个主要部分组成：1）金字塔Inception Transformer编码器，用于捕获粗粒度和细粒度特征；以及2）轻量级上采样Concat解码器，以直径方向合并多尺度特征并进行piexl级预测。

图2.（a）：所提出的IncepFormer架构，由两个主要部分组成：1）一个金字塔transformer编码器，用于捕获粗粒度和细粒度特征；以及2）轻量级上采样Concat解码器，以直径方向合并多尺度特征并进行peixl级预测。

Inception Transformer Encoder

将InceptionNet中的多尺度卷积思想应用于transformer。所提出的初始transformer可以捕获更丰富的上下文信息，同时显著降低计算复杂性。初始transformer块（IPTB）结构如图2（b）所示。首先输入到标准化层，然后传递到Incep MHSA，其输出与原始输入残差连接。为了更好地适应2D图像结构，使用BatchNorm。第二个子块中，根据2D图像的特征对前馈网络E-FFN进行微调，以进行特征投影。可表述为：