《When Multigranularity Meets Spatial–Spectral Attention: A Hybrid Transformer for Hyperspectral Image Classification》论文笔记

论文作者:Er Ouyang, Bin Li, Wenjing Hu, et al.

论文发表年份:2023

模型简称:HybridFormer

发表期刊:IEEE Transactions on Geoscience and Remote Sensing

论文代码:https://github.com/zhaolin6/HybridFormer

 

Motivation

1) 尽管基于CNN的方法在HSI分类任务上取得了优异的结果,但仍存在一些缺陷。首先,由于卷积核的局限性,基于CNN的方法的感受野被限制在卷积核大小的正方形区域,这通常会使网络在建模长距离依赖性方面无法取得效果。其次,传统的基于CNN的方法无法有效地从包含不同规模或形状的复杂土地覆盖结构的HSI中有效的提取特征。

2) 现有的大部分Transformer方法在编码阶段采用固定大小的patch,这容易对边界类别进行错误分类。此外,这些方法使用Transformer的全局建模能力来计算空间位置之间的相关性,同时忽略HSI中可用的丰富光谱信息。

 

Contribution

1) 我们从多粒度语义token编码和空间-光谱特征建模的角度研究了HSI分类问题。HybridFormer被提出作为一种新型的基于变压器的骨干网络,它利用局部-全局-局部策略来有效地对HSI的空间和频谱信息进行建模。HybridFormer有效地将Transformer的全局远距离依赖性与CNN的局部建模能力相结合,以充分利用特征,进一步提高分类精度。

2) 提出了一种新的SSA来取代原始Transformer中的自注意机制,它通过计算空间位置和光谱之间的相关性来捕获HSI的空间-光谱信息,从而使HybridFormer能够关注更多差异化的特征,从而提高分类精度。

3) 提出了一种MTG,它通过深度卷积进行patch编码,使空间和光谱信息保持独立。将多粒度信息输入到后续的Transformer模块中,可以进一步提高HybridFormer的分类能力。

 

Method

  1. Struct of HybridFormer

    如图1所示,HybridFormer模型的整体结构由三个主要组件组成:MTG、Transformer编码器和分类器。具体而言,HybridFormer的输入是固定大小的patch数据,该数据被输送到MTG中。CNN特征提取器提取浅层语义信息,并将这些特征进一步输入到多粒度深度卷积token编码(MDTE)模块中,以对粗粒度和细粒度子块进行tokenize。然后,这些tokens被发送到混合的Transformer 编码器中,以学习长距离依赖关系,该依赖关系主要由SSA和前馈神经网络(FFN)组成。在分类阶段,将Transformer 捕获的不同粒度的特征输入到线性层,然后提出自适应加权融合模块来融合这些特征。最终,具有最高概率值的输出是分类结果。

   2. Multigranularity Token Generator

    MTG由一个CNN特征提取器和一个MDTE模块组成,该模块使用CNN提取抽象语义特征,并将具有完全分离的空间-光谱信息的不同粒度的tokens嵌入到转换器中。因此,在HybridFormer模型中,多粒度特征被用作Transformer 的输入。

    CNN Feature Extractor:由于HSI训练样本的数量有限,因此应用简单的四层卷积块来提取浅层特征。如图2所示,每个卷积层之后是批量归一化(BN)和校正线性单元(ReLU)。给定大小为W×H×C的HSI立方体,它        被裁剪成固定大小为P×P×C的patch,这些patch首先通过卷积核大小为1的三层卷积块,以充分利用光谱域中的信息。在连接不同级别的特征之后,核大小为3的卷积层捕获空间语义信息。最后,使用平均池化层来减少数据的方差,并使用卷积层来将光谱维度固定到合适的数量。表I详细说明了CNN特征提取器的相关参数。

    Multigranularity Depthwise Convolution Token Embedding(MDTE): 为了充分捕捉HSI的多粒度特征,设计了一个MDTE模块,将视觉特征转换为具有不同粒度的语义tokens,使模型能够感知不同粒度的HSI信息。此外,深度卷积的应用还分离了空间和频谱特征,这保留了通道分布信息,并为后续的SSA机制提供了基础。图3展示了MDTE的过程。

    具体来说,给定CNN特征提取器提取的特征图I′∈Rw×h×c,其中w×h是I′的大小,c是波段的数量,使用不同核大小的深度卷积将特征图划分为几个具有不同粒度的语义标记。结果T可以通过以下方程获得:。对于给定的特征图I′,每个深度卷积的输出维度可以表示为:(其中pi、ki和si表示第i个粒度分支中深度卷积的padding、Kernerl size和stride。最后,使用reshapev操作对得到的patch矩阵进行序列化,以获得token序列,该token序列由T=[Ti∈Rni×c,i=1,2,…,]表示,其中ni是与第i个粒度分支对应的语义token的数量。)

    tips:就是在保证维度一致的情况下用卷积核大小不同组卷积对输入的特征图进行特征编码。

  3.SSA Moudle

    为了充分捕捉HSI的光谱-空间特征,我们提出了一种新的注意力模块SSA,它包含两种不同类型的注意力模块:空间注意力和光谱注意力。与其他注意力模块不同,SSA模块从局部patches 和通道中捕捉空间和光谱特征,并使用相互注意力突出判别特征。

     空间注意力是为了捕捉tokens之间的空间关系而设计的,光谱注意力来捕捉tokens的光谱维度之间的相关性。2-D卷积运算用于聚合相邻tokens的相关性.

                       

    在完成上述步骤后,该模型可以有效地捕获不同tokens之间的全局依赖关系,这进一步提高了模型的性能。

 

Experiments

  在Houston数据集上使用1%的训练样本:

 

Conclusion

  在本研究中,我们提出了一种具有多粒度SSA的混合Transformer框架,用于HSI分类。与其他直接压平图像块的基于变换Transformer的模型不同,HybridFormer使用卷积来执行浅层特征提取和多粒度token嵌入。针对HSI的多光谱维度特性,基于SSA的多分支Transformer器可以捕捉不同token之间的全局关系,这使得模型能够专注于空间域和光谱域中更具判别力的特征。此外,还设计了一种自适应融合方法来平衡在不同分支上发现的互补信息。在四个数据集上的实验结果证明了HybridFormer模型的优越性。未来,我们将进一步探索基于Transformer的结构如何在较小样本的情况下充分利用HSI的信息,包括无监督学习和自监督学习。该架构将针对高维HSI特征进行进一步优化,以便可以设计轻量级框架。

 

posted @ 2023-03-20 11:22  AllFever  阅读(286)  评论(0编辑  收藏  举报