遥感图像处理笔记之【论文:一种图像融合新方法】

遥感图像处理学习(12)之【论文:一种图像融合新方法】


前言

遥感系列第12篇。遥感图像处理方向的学习者可以参考或者复刻

本文初编辑于2024年1月26日CSDN平台
2024年1月26日搬运至博客园平台

总结:原论文提出了一种数据融合的新方法,使得模型使用HSI和LIDAR数据进行图像分类任务。

啊,这是什么?Transformer?融一下
啊,这是什么?CNN?融一下
啊,这是什么?Resnet?融一下

论文标题:Multimodal Fusion Transformer for Remote Sensing Image Classification

论文地址:https://arxiv.org/pdf/2203.16952.pdf


一、INTRODUCTION(介绍)

对数据集的探究:

遥感图像任务包括(但不限于)土地覆盖分类、林业、矿物勘探与测绘、物体/目标检测、环境监测、城市规划、生物多样性保护、灾害响应和管理。

但是,单一传感器数据往往不足以识别某些应用领域中感兴趣的对象。那么,可以使用多传感器设备进行同一区域的数据采集。

HSI能够提供对图像中丰富的光谱和空间信息,

光探测和测距(LiDAR)收集深度和强度信息,测量物体在地球表面的高程,允许区分具有相同光谱特征但高程不同的土地覆盖对象,如道路和屋顶内置水泥。

对传统方法的探究:

传统方法已广泛应用于HSI分类,即使训练样本有限。这些方法大多分为两步,首先,它们在特征空间中表示 HSI 数据以降低维度并提取一些信息量很大的特征;然后,提取的特征被发送到光谱分类器。

但是,当训练数据变得复杂时,传统方法会遇到性能瓶颈,因为它们在数据拟合和表示能力方面存在局限性。

对CNN方法的探究

基于深度学习的监督技术在RS图像分类Tasks中往往表现出优越性。深度学习方法可以平衡算法的准确性和稳健性。同时,浅层学习方法依赖于从训练或观察数据中获得的先验信息。

但是,CNN 几乎无法捕获序列属性,尤其是中间和长期依赖关系。这导致性能下降,尤其是当数据包含许多具有相似光谱特征的类时。

虽然,RNN可以通过按顺序逐波段累积来自 HSI 的光谱特征来准确建模,但是,因为 HSI 包含许多样本,RNN 不能同时训练模型,这限制了分类性能。

对Transformer方法的探究

虽然,Transformer 擅长捕获光谱特征中包含的信息,但是,它不能平等地表征局部语义元素,并且不能充分利用空间信息。

提出自己的方法

为了充分利用HSI和其他多模态数据来源的信息,如SAR、DSM、LiDAR和DSM,提出自己的网络MFT。

二、PRE-PROCESSING OF HSI AND LIDAR DATA(对HSI和LIDAR的预处理工作)

对数据集格式介绍

HSI数据格式是

\[X_H:M \times N \times B \]

M、N为空间二维坐标,B为光谱数

LIDAR数据格式是

\[X_L:M \times N \]

M、N为空间二维坐标

对patch格式介绍

预处理阶段需要进行patch提取

HSI的patch为

\[X_{i,j} \in R^{k \times k \times B} \in X_H \]

其中k<M且k<N

LIDAR的patch为

\[X_{i,j} \in R^{k \times k } \in X_L \]

其中k<M且k<N

通过联合利用光谱空间信息,可以提高特征学习网络的判别能力

对训练测试集介绍

\[ D^{train}:{(x_h,x_t),y^{(i)}|i:1,2,3,.......P}\\ D^{test}:{(x_h,x_t),y^{(i)}|i:1,2,3,.......Q} \]

P、Q分别为训练集和测试集数量

三、PROPOSED MULTIMODAL FUSION TRANSFORMER(提出MFT方法)

由于HSI数据存在多维度,如果将数据融合技术融合到传统Transformer模型中,参数量会指数级别增长。

在传统的ViT模型中,如果我们使用HSI数据作为输入,由于输入有许多光谱波段,我们增加了线性投影的复杂性,这可能会导致过拟合。假设其他多模态数据(如LiDAR、SAR或DSM)连接到HSIs来学习互补信息,由于波段数量的增加,上述问题更加严重。

我们提出MFT方法,将HSI数据作为输入,将LIDAR数据作为CLS token,其中LIDAR CLS token对应的图像部分与HSI对应的图像部分相同。方法将 LiDAR 视为外部类嵌入,而不引入任何计算开销,来丰富 CLS 令牌的抽象描述。

模型是这样工作的:

1.以CNN提取HSI中的数据

2.以CNN提取LIDAR中的数据,两种方式任选,其中像素融合生成1维数据,通道融合生成64维数据

3.concat两边的数据,加一个position embedding,扔进Transformer训练两轮。

为什么是两轮,我也不知道,代码是这么写的。

4.输出层处理

四、EXPERIMENTS(实验)

对MFT性能的探究

使用KNN、RF、SVM、CNN1D、CNN2D、CNNN3D、RNN、ViT、SpectralFormer、MFT在University of Houston (UH) scene、MUUFL scene、Trento data、Visualization of the Augsburg scene数据集上进行训练,这里十多张图,不想放出来了。MFT性能结果不错,大部分准确率是最高的

对不同比例训练测试集的探究

在训练样本不足或不可靠的情况下,可能会出现欠拟合(也称为 Hughes Phenomena)或过拟合(不可靠)问题。这里随机选择 3%、5%、7% 和 9% 的训练样本来训练模型(本文介绍的模型和比较方法),其余样本用于测试。其他参数保持不变。

五、CONCLUSIONS(结论)

就是总结了一下提取LIDAR数据作为CLS的思路,还有展望什么的,重要的信息都在前面

posted @ 2024-01-26 15:24  这可就有点麻烦了  阅读(182)  评论(4编辑  收藏  举报