遥感图像处理笔记之【论文：一种图像融合新方法】

遥感图像处理学习（12）之【论文：一种图像融合新方法】

前言

遥感系列第12篇。遥感图像处理方向的学习者可以参考或者复刻

本文初编辑于2024年1月26日CSDN平台
2024年1月26日搬运至博客园平台

总结：原论文提出了一种数据融合的新方法，使得模型使用HSI和LIDAR数据进行图像分类任务。

啊，这是什么?Transformer？融一下

啊，这是什么?CNN？融一下

啊，这是什么?Resnet？融一下

论文标题：Multimodal Fusion Transformer for Remote Sensing Image Classification

论文地址：https://arxiv.org/pdf/2203.16952.pdf

一、INTRODUCTION（介绍）

对数据集的探究：

遥感图像任务包括(但不限于)土地覆盖分类、林业、矿物勘探与测绘、物体/目标检测、环境监测、城市规划、生物多样性保护、灾害响应和管理。

但是，单一传感器数据往往不足以识别某些应用领域中感兴趣的对象。那么，可以使用多传感器设备进行同一区域的数据采集。

HSI能够提供对图像中丰富的光谱和空间信息，

光探测和测距(LiDAR)收集深度和强度信息，测量物体在地球表面的高程，允许区分具有相同光谱特征但高程不同的土地覆盖对象，如道路和屋顶内置水泥。

对传统方法的探究：

传统方法已广泛应用于HSI分类，即使训练样本有限。这些方法大多分为两步，首先，它们在特征空间中表示 HSI 数据以降低维度并提取一些信息量很大的特征；然后，提取的特征被发送到光谱分类器。

但是，当训练数据变得复杂时，传统方法会遇到性能瓶颈，因为它们在数据拟合和表示能力方面存在局限性。

对CNN方法的探究

基于深度学习的监督技术在RS图像分类Tasks中往往表现出优越性。深度学习方法可以平衡算法的准确性和稳健性。同时，浅层学习方法依赖于从训练或观察数据中获得的先验信息。

但是，CNN 几乎无法捕获序列属性，尤其是中间和长期依赖关系。这导致性能下降，尤其是当数据包含许多具有相似光谱特征的类时。

虽然，RNN可以通过按顺序逐波段累积来自 HSI 的光谱特征来准确建模，但是，因为 HSI 包含许多样本，RNN 不能同时训练模型，这限制了分类性能。

对Transformer方法的探究

虽然，Transformer 擅长捕获光谱特征中包含的信息，但是，它不能平等地表征局部语义元素，并且不能充分利用空间信息。

提出自己的方法

为了充分利用HSI和其他多模态数据来源的信息，如SAR、DSM、LiDAR和DSM，提出自己的网络MFT。

二、PRE-PROCESSING OF HSI AND LIDAR DATA(对HSI和LIDAR的预处理工作)

对数据集格式介绍

HSI数据格式是

\[X_H:M \times N \times B \]

M、N为空间二维坐标，B为光谱数

LIDAR数据格式是

\[X_L:M \times N \]

M、N为空间二维坐标

对patch格式介绍

预处理阶段需要进行patch提取

HSI的patch为

\[X_{i，j} \in R^{k \times k \times B} \in X_H \]

其中k<M且k<N

LIDAR的patch为

\[X_{i，j} \in R^{k \times k } \in X_L \]

其中k<M且k<N

通过联合利用光谱空间信息，可以提高特征学习网络的判别能力

对训练测试集介绍

\[ D^{train}:{(x_h,x_t),y^{(i)}|i:1,2,3,.......P}\\ D^{test}:{(x_h,x_t),y^{(i)}|i:1,2,3,.......Q} \]

P、Q分别为训练集和测试集数量

三、PROPOSED MULTIMODAL FUSION TRANSFORMER（提出MFT方法）

由于HSI数据存在多维度，如果将数据融合技术融合到传统Transformer模型中，参数量会指数级别增长。

在传统的ViT模型中，如果我们使用HSI数据作为输入，由于输入有许多光谱波段，我们增加了线性投影的复杂性，这可能会导致过拟合。假设其他多模态数据(如LiDAR、SAR或DSM)连接到HSIs来学习互补信息，由于波段数量的增加，上述问题更加严重。

我们提出MFT方法，将HSI数据作为输入，将LIDAR数据作为CLS token，其中LIDAR CLS token对应的图像部分与HSI对应的图像部分相同。方法将 LiDAR 视为外部类嵌入，而不引入任何计算开销，来丰富 CLS 令牌的抽象描述。

模型是这样工作的：

1.以CNN提取HSI中的数据

2.以CNN提取LIDAR中的数据，两种方式任选，其中像素融合生成1维数据，通道融合生成64维数据

3.concat两边的数据，加一个position embedding，扔进Transformer训练两轮。

为什么是两轮，我也不知道，代码是这么写的。

4.输出层处理

四、EXPERIMENTS（实验）

对MFT性能的探究

使用KNN、RF、SVM、CNN1D、CNN2D、CNNN3D、RNN、ViT、SpectralFormer、MFT在University of Houston (UH) scene、MUUFL scene、Trento data、Visualization of the Augsburg scene数据集上进行训练，这里十多张图，不想放出来了。MFT性能结果不错，大部分准确率是最高的

对不同比例训练测试集的探究

在训练样本不足或不可靠的情况下，可能会出现欠拟合（也称为 Hughes Phenomena）或过拟合（不可靠）问题。这里随机选择 3%、5%、7% 和 9% 的训练样本来训练模型（本文介绍的模型和比较方法），其余样本用于测试。其他参数保持不变。

五、CONCLUSIONS（结论）

就是总结了一下提取LIDAR数据作为CLS的思路，还有展望什么的，重要的信息都在前面

posted @ 2024-01-26 15:24 这可就有点麻烦了阅读(324) 评论(4) 收藏举报

刷新页面返回顶部

hassle