《Spectral–Spatial Feature Tokenization Transformer for Hyperspectral Image Classification》论文笔记
论文作者:Le Sun, Guangrui Zhao, Y uhui Zheng, et al.
论文发表年份:2022
模型简称:SSFTT
发表期刊:IEEE Transactions on Geoscience and Remote Sensing
Motivation
1.基于CNN的网络虽然提高了HSI分类性能,但由于训练样本有限和网络层数增加而导致的分类性能下降是难以克服的。它们还具有过多的功能冗余。
2.基于Transformer的网络在捕获局部语义特征方面失去了能力,并且没有充分利用图像空间信息。
Contribution
1) 在我们的SSTFF网络中,提出了一种简单高效的分层CNN模块,用于提取浅层空间-光谱特征。它只由一个三维卷积层和一个二维卷积层组成。然后,将该模块与Transformer结构相结合,开发出一种新的轻量级网络,以取代单一的CNN结构,从而降低计算成本。
2) 提出了一种高斯分布加权tokenization模块,将浅层空间-光谱特征转换为tokenized语义特征。其功能是使表征所表达的深层语义特征更符合样本的分布特征,从而使样本更具可分离性。
3) CNN网络和从浅到深的转换结构的系统组合可以充分利用HSI中的光谱-空间信息,简洁高效地表达HSI的中低深度语义特征,从而显著提高分类精度。在三个具有代表性的数据集上进行的实验验证了所提出的网络的优越性。
Method
1.Spectral–Spatial Feature Extraction:将经过PCA降维后的特征图{(m×n×l)->(m×n×b)}经过一个3-D卷积层和一个2-D卷积层进行初初始特征编码。
2.Gaussian-W eighted Feature T okenizer:通过两层卷积运算提取的特征携带光谱和空间信息,但不能充分描述地面物体的特征。因此,特征图被进一步定义为语义tokens,可以表示和处理HSI特征类别的高级语义概念。对于这一部分,输入经过flattening的特征图,定义为X∈Ruv×z,u是高度,v是宽度,z是通道数。特征tokens被定义为T∈Rw×z,w表示标记的数量。对于特征图X,T可以通过以下公式获得:
Wa∈Rz×w表示用高斯分布初始化的权重矩阵,XWa表示它们执行1×1逐点乘积。目标是将X映射到语义组中。通过该步骤获得的语义组的大小为A∈Ruv×w。然后,A被转置,softmax(·)被用来关注相对重要的语义部分。最后,A与X相乘,生成T个语义tokens。处理过程如下图所示。
3.随后输出的每个token由[T1,T2,…Tw]表示。令牌与可学习分类token T0cls连接,该可学习分类token用于执行分类任务。然后,位置信息PEpos被编码并被附加到令牌表示中。由此产生的语义标记的嵌入序列由下式给出:
Experiment
选用的训练样本数量:Indian Pines:10%,Houston2013:10%,PaviaU:5%
Conclusion
本文提出了一种SSFTT方法来提高HSI分类的性能。该方法将骨干CNN和Transformer结构有机地集成在一起。卷积层用于完全捕获低级别卷积的光谱-空间特征。然后,将特征转换为语义tokens。此外,Transformer Encoder结构用于对tokens的高级语义特征进行建模。这样的操作使得对土地覆盖特征的分析更加充分。实验表明,该方法能够有效地提高分类性能。此外,还证明了将HSI分类问题扩展到局部高级语义分类问题的有效性。
未来,我们将基于轻量级的SSFTT,研究一种在空间域和谱域具有两个分支的端到端变换网络,用于提取高级空间-谱特征,从而进一步提高分类精度。此外,所提出的SSFTT在多模态数据的高级语义特征提取方面具有良好的可扩展性,为高光谱和激光雷达数据的联合融合和分类网络设计提供了新的思路。