SpectralFormer: Rethinking Hyperspectral Image Classification with Transformers
论文作者:Danfeng Hong, Zhu Han, Jing Yao, et al.
论文发表年份:2021
模型简称:SpectralFormer
发表期刊:IEEE Transactions on Geoscience and Remote Sensing
论文链接:https://arxiv.org/pdf/2107.02988.pdf
论文代码:https://github.com/danfenghong/IEEE_TGRS_SpectralFormer
Motivation
1.CNN作为主流的骨干体系结构,在从HSI中提取空间结构信息和局部上下文信息方面表现出了强大的能力。然而,一方面,CNN很难很好地捕获序列属性,特别是中长期依赖关系。这在HSI分类任务中不可避免地遇到了性能瓶颈,特别是当待分类类别种类繁多且光谱特征极其相似时。另一方面,CNN过度关注空间内容信息,导致学习特征中的光谱信息没有有效利用。这在很大程度上增加了挖掘光谱特征的难度。
2.与CNN不同,RNN是为序列数据设计的,它以有序的方式逐带累积地从HSI中学习光谱特征。这种模式极度依赖于光谱波段的顺序,容易产生梯度消失,因此很难学习长期依赖关系。这可能进一步导致难以捕捉时间序列中的光谱显著变化。更重要的是,在真实的HSI场景中,通常有大量的HSI样本(或像素),而RNN无法并行训练模型,限制了实际应用中的分类性能。
3.对于其他骨干网络,如GANs、CapsNet、GCNs,尽管它们在学习光谱表示(例如,鲁棒性、等效性、样本之间的长程相关性)方面都有各自的优势,但有一个共同点是,几乎所有这些网络都无法有效地对序列信息建模。即光谱信息利用不足(这是利用HS数据进行精细土地覆盖分类或制图的关键瓶颈)。
4.对于基于Transformer的网络,也存在一些缺陷,阻碍了其性能的进一步提高。尽管Transformer在解决光谱的长期依赖问题方面表现出色,但它们失去了捕获局部上下文或语义特征的能力。此外,残差连接在Transformer中起着至关重要的作用。这可以通过使用“残差”来更好地传播梯度或增强“记忆”来减少关键信息的遗忘或丢失。但简单的加法跳跃连接操作只发生在每个Transformer块内,削弱了不同层或块之间的连通性。
Contribution
(1)我们从序列的角度重新讨论了HSI分类问题,并提出了一种新的基于Transformer的骨干网络,称为SpectralFormer,以替代基于CNN或RNN的架构。据我们所知,这是第一次将Transformer(没有任何预处理操作,例如使用卷积和循环单元或其他转换技术进行特征提取)纯粹应用于HSI分类任务。
(2)我们在SpectralFormer中设计了两个简单但有效的模块,即分组光谱嵌入(GSE)和跨层自适应融合(CAF),以学习局部详细的光谱表示,并分别将如同记忆的组件从浅层传递到深层。
(3)我们定性和定量地评估了SpectralFormer在三个具有代表性的HS数据集上的分类性能,即IndianPines、Pavia University和Houston2013,并进行了广泛的消融研究。实验结果表明,与经典Transformer(OA提高约10%)和其他最先进的骨干网(OA提高至少2%)相比,该方法具有显著优势。
Method
1.我们的目标是开发一种新颖通用的基于ViT的基线网络(即SpectralFormer),重点关注光谱特性,使其很好地适用于HSI的高精度精细分类。为此,我们设计了两个关键模块,即GSE和CAF,并将其集成到Transformer框架中,分别提高了捕获细微光谱差异的能力和增强层与层之间的信息传递性(或连通性)(即减少随着层的逐渐加深而造成的信息损失)。此外,所提出的SpectralFormer不仅应用于像素级的HSI分类,而且还可以使用批量输入扩展到的空间光谱分类,得到空间-光谱SpectralFormer版本。图3展示了所提出的SpectralFormer在HS图像分类任务中的概述,而表I详细描述了所提出的SpectralFormer中使用的符号的定义。
2.分组光谱编码 (GSE):与经典Transformer或ViT中的离散序列性(例如,图像patch)不同,HSI中的数百或数千个光谱通道以细微的间隔(例如,10nm)密集地从电磁频谱中采样,产生近似连续的光谱特征。不同位置的光谱信息反映了不同波长对应的不同吸收特性。这在很大程度上显示了当前材料的物理性能。捕捉这种光谱特征的局部详细吸收(或变化)是准确和精细地对HS场景中的物质进行分类的关键因素。为此,我们提出分组光谱编码,即GSE。
其中W∈Rd×n和X∈Rn×m分别对应于变量W和X的分组表示,n表示相邻波段的个数,函数g(·)表示对变量x的重叠分组操作。图4展示了基于变压器的骨干网中频段频谱嵌入和分组频谱嵌入之间的差异,即BSE和GSE。
3.跨层自适应融合(CAF):近年来,SC(skip connection)的应用在图像识别和分割方面取得了巨大的成功,例如ResNet的短SC和U-Net的长SC。但需要注意的是,短SC的信息“记忆”能力仍然有限,而长SC由于高低特征之间的差距较大,往往融合不足。这也是Transformer存在的一个关键问题,对Transformer的结构设计提出了新的挑战。为此,我们在SpectralFormer中设计了一个中等范围的SC,自适应学习交叉层特征融合(即CAF,如图5所示)。
设z(l−2)∈R1×dz和z(l)∈R1×dz分别是(l−2)-th层和(l)-th层的输出(或表示),则CAF可表示为:
其中,z(l)表示采用所提出的CAF在(l)层中的融合表示,¨w∈R1×2为自适应融合的可学习网络参数。值得注意的是,我们的CAF只跳过了一个编码器,例如,从z(l−2)(编码器1的输出)到z(l)(编码器3的输出).
4.Spatial-Spectral SpectralFormer:与cnn直接输入3-D patch cube不同,我们将每个波段的2-D patch展开为相应的1-D向量表示。例如某一波段:xi ∈ Rwh×1, X = [x1, ..., xi, ..., xm]。
Experiment
大约10%的标记样本用于训练。
Conclusion
HSI通常被收集(或表示)为一个具有空间光谱信息的数据立方体,一般可以将其视为沿光谱维度的数据序列。与主要关注上下文信息建模的CNN不同,Transformer已被证明是一种强大的体系结构,可以在全局范围内描述序列信息。然而,经典的基于Transformer的视觉网络,如ViT,在处理HSI数据时,不可避免地会出现性能下降。这可以很好地解释为,ViT未能对局部详细的光谱差异进行建模,并有效地传递“记忆”样的成分(从浅层到深层)。为此,在本文中,我们提出了一种新的基于Transformer的骨干网络,称为SpectralFormer,它更专注于提取光谱信息。在不使用任何卷积或循环单元的情况下,所提出的SpectralFormer可以获得最先进的HSI图像分类结果。
在未来,我们将研究进一步改进基于Transformer的架构的策略,利用更先进的技术,如注意力、自监督学习,使其更适用于HSI分类任务,并尝试建立一个轻量级的基于Transformer的网络,在维护的同时降低网络的复杂性。