遥感图像处理笔记之【论文:一种图像融合新方法】
遥感图像处理学习(12)之【论文:一种图像融合新方法】
前言
遥感系列第12篇。遥感图像处理方向的学习者可以参考或者复刻
本文初编辑于2024年1月26日CSDN平台
2024年1月26日搬运至博客园平台
总结:原论文提出了一种数据融合的新方法,使得模型使用HSI和LIDAR数据进行图像分类任务。
论文标题:Multimodal Fusion Transformer for Remote Sensing Image Classification
论文地址:https://arxiv.org/pdf/2203.16952.pdf
一、INTRODUCTION(介绍)
对数据集的探究:
遥感图像任务包括(但不限于)土地覆盖分类、林业、矿物勘探与测绘、物体/目标检测、环境监测、城市规划、生物多样性保护、灾害响应和管理。
但是,单一传感器数据往往不足以识别某些应用领域中感兴趣的对象。那么,可以使用多传感器设备进行同一区域的数据采集。
HSI能够提供对图像中丰富的光谱和空间信息,
光探测和测距(LiDAR)收集深度和强度信息,测量物体在地球表面的高程,允许区分具有相同光谱特征但高程不同的土地覆盖对象,如道路和屋顶内置水泥。
对传统方法的探究:
传统方法已广泛应用于HSI分类,即使训练样本有限。这些方法大多分为两步,首先,它们在特征空间中表示 HSI 数据以降低维度并提取一些信息量很大的特征;然后,提取的特征被发送到光谱分类器。
但是,当训练数据变得复杂时,传统方法会遇到性能瓶颈,因为它们在数据拟合和表示能力方面存在局限性。
对CNN方法的探究
基于深度学习的监督技术在RS图像分类Tasks中往往表现出优越性。深度学习方法可以平衡算法的准确性和稳健性。同时,浅层学习方法依赖于从训练或观察数据中获得的先验信息。
但是,CNN 几乎无法捕获序列属性,尤其是中间和长期依赖关系。这导致性能下降,尤其是当数据包含许多具有相似光谱特征的类时。
虽然,RNN可以通过按顺序逐波段累积来自 HSI 的光谱特征来准确建模,但是,因为 HSI 包含许多样本,RNN 不能同时训练模型,这限制了分类性能。
对Transformer方法的探究
虽然,Transformer 擅长捕获光谱特征中包含的信息,但是,它不能平等地表征局部语义元素,并且不能充分利用空间信息。
提出自己的方法
为了充分利用HSI和其他多模态数据来源的信息,如SAR、DSM、LiDAR和DSM,提出自己的网络MFT。
二、PRE-PROCESSING OF HSI AND LIDAR DATA(对HSI和LIDAR的预处理工作)
对数据集格式介绍
HSI数据格式是
M、N为空间二维坐标,B为光谱数
LIDAR数据格式是
M、N为空间二维坐标
对patch格式介绍
预处理阶段需要进行patch提取
HSI的patch为
其中k<M且k<N
LIDAR的patch为
其中k<M且k<N
通过联合利用光谱空间信息,可以提高特征学习网络的判别能力
对训练测试集介绍
P、Q分别为训练集和测试集数量
三、PROPOSED MULTIMODAL FUSION TRANSFORMER(提出MFT方法)
由于HSI数据存在多维度,如果将数据融合技术融合到传统Transformer模型中,参数量会指数级别增长。
在传统的ViT模型中,如果我们使用HSI数据作为输入,由于输入有许多光谱波段,我们增加了线性投影的复杂性,这可能会导致过拟合。假设其他多模态数据(如LiDAR、SAR或DSM)连接到HSIs来学习互补信息,由于波段数量的增加,上述问题更加严重。
我们提出MFT方法,将HSI数据作为输入,将LIDAR数据作为CLS token,其中LIDAR CLS token对应的图像部分与HSI对应的图像部分相同。方法将 LiDAR 视为外部类嵌入,而不引入任何计算开销,来丰富 CLS 令牌的抽象描述。
模型是这样工作的:
1.以CNN提取HSI中的数据
2.以CNN提取LIDAR中的数据,两种方式任选,其中像素融合生成1维数据,通道融合生成64维数据
3.concat两边的数据,加一个position embedding,扔进Transformer训练两轮。
为什么是两轮,我也不知道,代码是这么写的。
4.输出层处理
四、EXPERIMENTS(实验)
对MFT性能的探究
使用KNN、RF、SVM、CNN1D、CNN2D、CNNN3D、RNN、ViT、SpectralFormer、MFT在University of Houston (UH) scene、MUUFL scene、Trento data、Visualization of the Augsburg scene数据集上进行训练,这里十多张图,不想放出来了。MFT性能结果不错,大部分准确率是最高的
对不同比例训练测试集的探究
在训练样本不足或不可靠的情况下,可能会出现欠拟合(也称为 Hughes Phenomena)或过拟合(不可靠)问题。这里随机选择 3%、5%、7% 和 9% 的训练样本来训练模型(本文介绍的模型和比较方法),其余样本用于测试。其他参数保持不变。
五、CONCLUSIONS(结论)
就是总结了一下提取LIDAR数据作为CLS的思路,还有展望什么的,重要的信息都在前面