视觉Mamba的多向扫描策略真的有效吗？

前言本文对主流的扫描方向及其组合对遥感图像语义分割的影响进行了全面的实验研究。通过在LoveDA、ISPRS Potsdam和ISPRS Vaihingen数据集上广泛的实验，我们证明了无论其复杂性或扫描方向的数量，没有一个扫描策略能够显著优于其他策略。所以对于高分辨率遥感图像的语义分割，简单的单一扫描方向已经足够。

本文转载自CVer

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV方向的准研究生们，未来三年如何度过？

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

论文标题：Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study

原文链接：https://arxiv.org/abs/2405.08493

单位：西交利物浦大学、CSIRO(澳大利亚科学与工业研究院)

01 背景介绍

图1. Vision Mamba中常用的12种扫描方向。图像根据预设置的大小裁剪成patches，然后根据特定的扫描方向将这些patches建模为序列。

Mamba是一个基于状态空间模型（SSM）的网络，最初应用于大型语言模型。Mamba 作为一个类似于循环神经网络的序列网络，能够归纳先前信息并预测后续状态。通过引入选择性机制来选择性地关注或忽略输入，它有效地压缩了长期上下文信息。在应用于视觉任务时，该网络能够兼顾全局感受野和线性复杂度，这表明它在遥感图像分割中具有很大潜力。

借鉴了ViT将Transformer架构引入视觉任务的成功经验，大量研究成功地将Mamba集成到图像处理任务中。类似于ViT将图像裁剪成patch并展开以输入Transformer模型的方式，Mamba将图像patch作为序列进行处理。然而，与ViT不同的是，ViT能够在这些图像patch之间计算多头自注意力，而Mamba则顺序的处理图像patch。因此，有许多可用的图像patch的扫描方向。

大量研究探索了新的扫描方向及其组合，试图增强Mamba对图像理解的性能。图1展示了12种常用的扫描方向（D1 - D12）。D1 - D4 是以“Z”字形模式顺序扫描图像patch的每一行或每一列。D5 - D8 是对图像patch进行对角线方向的顺序扫描。D9 - D12 则进行“S”字形蛇形扫描。然而，现有研究尚未全面比较其有效性。因此，亟需一项比较研究，定量评估各种扫描方向及其组合对Mamba在典型遥感任务（语义分割）性能的影响。

02 相关工作

图2. (a) 平铺扫描策略，与Samba一致；(b) 平铺后进行正向和反向扫描，然后合并，与Vim一致；(c) 依次进行四个方向的扫描，然后合并，与VMamba一致；(d) 四个方向的蛇形扫描，与PlainMamba一致。

由于Mamba是一个序列网络，无法直接处理二维图像数据，因此探索将图像序列化的方法是有意义的。Vim进行了首次尝试，其方法与ViT相似，将图像裁剪成patch并展开。它对图像patch进行正向（D1）和反向（D2）扫描，然后合并，如图2(b)所示。类似地，VMamba在ViM的基础上增加了两个垂直扫描方向（D3，D4），如图2(c)所示。PlainMamba采用了蛇形扫描方法（D8，D9，D10，D11），如图3(d)所示。这些尝试都是基于一个假设，即不同的图像patch扫描方向可能会增强Mamba对图像的理解。然而，目前仍缺乏在不同扫描方向下对模型性能进行全面和定量的比较。

随着Vision Mamba的不断发展，许多研究评估了其在语义分割任务中的表现，特别是在医学和遥感领域。U-Mamba是首次将Mamba与UNet架构结合，用于医学图像语义分割的尝试。随后，基于Vim的双向扫描和VMamba的四向扫描的工作相继出现。在遥感领域，Samba是第一个将Mamba引入遥感图像语义分割的研究，其中图像patch按照与ViT相同的方式展开，如图2(a)所示。之后，RS3Mamba使用VMamba的四向扫描方法构建了辅助编码器，用于语义分割。类似地，RSMamba在VMamba的四向扫描基础上，在其编码器-解码器架构中增加了四个额外的对角线方向（即D5、D6、D7和D8）。

03 实验

图3. 实验框架的总体架构。

为了全面评估扫描策略对Mamba在高分辨率图像语义分割任务中表现的影响，我们设计了一个特定的语义分割框架，使用编码器-解码器架构以便于对扫描策略进行定量比较。整体框架如图3左侧所示。在编码器部分，图像被裁剪成patch，然后依次输入四个Vision Mamba Scan (VMS)模块进行渐进式降采样。为了确保实验的公平性，我们一致使用UperNet作为解码器来生成分割结果。VMS模块是一个带有跳跃连接的残差网络。残差网络由两个分支组成。一个分支使用深度卷积（DW Conv）层来提取特征，对各个方向的扫描进行S6计算，然后进行合并。另一个分支则由线性映射和激活层组成。虽与Mamba相似，该架构在图像扫描形式上存在一个关键区别，称为8方向扫描（8D Scan）模块，如图3右侧所示。由于我们实验中考虑的扫描方向数量从1（即单向）到8（即8个单独扫描方向的组合），我们在8D Scan模块中设计了8个潜在的扫描方向：Dn1、Dn2、Dn3、……、Dn8。

图4. 扫描策略的实验设置

图4展示了我们实验中测试的22种扫描策略，包含了主流的扫描策略的方法。实验设置详见原文。

04 结果

表1. 不同扫描策略在Vaihingen数据集的分割表现。

表2. 不同扫描策略在Potsdam数据集的分割表现。

表3. 不同的扫描策略在LoveDA数据集的分割表现。

表1、2和3分别展示了使用图4中详细描述的22种扫描策略在ISPRS Vaihingen、ISPRS Potsdam和LoveDA数据集上的语义分割表现。我们在三个数据集中观察到一个有趣的现象：由22种扫描策略得到的分割准确率都是相似的。考虑到每个数据集中不同扫描策略之间的微小性能差异，以及单个扫描策略在三个数据集中的性能变化，没有明显的迹象表明特定的扫描策略在复杂性或涉及单个或多个扫描方向上优于其他策略。观察到的任何轻微性能波动可能都归因于训练过程中的随机性。基于结果的详细讨论以及未来工作详见论文。

05 结论

本研究在ISPRS Vaihingen、ISPRS Potsdam和LoveDA数据集上，定量研究了22种扫描策略对基于Mamba方法的高分辨率遥感图像语义分割的影响。实验结果表明，无论是单向扫描方向还是其组合，各种扫描策略并未在分割准确率上带来明显提升。因此，对于遥感图像，简单的平铺方法在基于Mamba的方法中已足够。然而，多方向扫描方法在常规图像中的有效性仍需验证。我们的研究还发现，减小步长可以提高Mamba在语义分割中的表现，但代价是增加计算资源的消耗。因此，开发更高效的计算方法以支持更密集的扫描是有价值的。

参考文献：

[1] Zhu, Q., Fang, Y., Cai, Y., Chen, C., & Fan, L. (2024). Rethinking scanning strategies with vision Mamba in semantic segmentation of remote sensing imagery: An experimental study. http://arxiv.org/abs/2405.08493

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群：470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库，上千篇文章、专栏，CV所有资料都在这了

明年毕业，还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力，性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM：微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器！目标检测蒸馏学习新方法，浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究：全时多模态基准与多交互特征学习

听我说，Transformer它就是个支持向量机