高光谱图像分类——采样策略

本文主要对目前提出的几种用于高光谱图像分类的采样策略作汇总分析,总结了解决overlap问题的不同方法。

一、Overlap问题

  目前,广泛使用的采样策略为简单随机采样策略。选定采样比例,然后从所有样本中按比例进行随机采样,作为训练样本,剩余样本作为测试样本。训练样本和测试样本选取如图1所示。

      
图1 训练样本和测试样本比例图

  由于目前使用的分类方法大部分是基于空间-光谱特征进行分类,在训练过程中会使用设定的patch大小,如5*5,9*9,13*13等,基于中心像素训练样本进行patch选取训练,方便获得对应的空间信息。但是由于训练样本和测试样本基本都是紧邻的,导致训练过程中的patch会与部分测试样本重合,从而使训练样本和测试样本之间没有保持独立性。例如,图2显示了 Indian Pines 数据集上的训练数据和测试数据之间的重叠程度。在图2中,白点表示训练样本的位置,周围的白色方块覆盖了用于光谱空间特征提取的3×3区域。然而,测试样本可能只是位于正方形内并且有其自己的周围区域。这导致从训练数据和测试数据中提取的特征之间存在共享区域,使得它们彼此交互并失去相互独立性。同样明显的是,较大的patch大小会导致更多的重叠区域。

图2 Overlap示例图

 二、采样策略

  由于从同一图像中随机采样不适合评估空间-光谱分类方法, 经过研究者们的一系列工作研究表明,overlap问题会提高最终分类的精度,影响对于结果的评估。因此有必要开发合理的采样策略来分离训练集和测试集而不重叠。如果能够在两种不同的图像上进行训练和测试就完美了。但是由于基准数据集的可用性有限以及地面实况数据收集的成本高昂,这在大多数情况下仍然不可行。因此,在不改变现有实验设置的情况下,目标是显着减少数据重叠程度,并使评估足够公平。新的采样策略应该满足以下要求。

  首先,应避免在整个图像上均匀地选择样本,以便最小化训练集和测试集之间的重叠。其次,所选择的训练样本还应该在光谱域中具有代表性,这意味着它应充分覆盖不同类别的光谱数据变化。这两个属性之间存在悖论,因为空间分布和光谱分布是相互耦合的。第一个属性倾向于使训练样本聚类,从而减少训练数据和测试数据之间的重叠。然而,第二个属性更喜欢像随机采样那样在空间上分布训练样本,并覆盖图像不同区域的光谱变化。因此,必须通过新的采样策略来实现良好的权衡。第三,由于没有先验知识,我们不知道哪些样本比其他样本更重要。因此,新方法应具有随机性。

  ①基于上述考虑,Liang et al. [1] 提出了一种受控随机抽样策略,与随机抽样类似,每类中随机选择预定比例的样本,训练样本和其余数据作为测试样本。这些训练样本应集中在本地、分散在全局。Liang et al.借用区域生长的思想来创建区域形状训练样本[2]。在地面实况图上,从不同的类分区中随机选择种子点,使训练样本全局随机分散。这里所说的分区是一组具有相同标签的相连像素。对于每个类别,通常在地图上分布有多个分区,对应于不同位置的同一类别的土地覆盖。然后,受控随机抽样分三个步骤进行。首先,它为每个类选择未连接的分区,并对每个分区中的样本进行计数。这一步是找到每个类的空间分布,并确保下一步选择的训练样本最大程度地覆盖光谱方差。其次,对于每个分区,训练样本是通过从种子像素扩展区域来生成的。在区域生长方面,它向各个方向扩展并考虑八个相连的邻域像素。检查种子像素的所有相邻像素,如果它们属于同一类,则将它们用作新的种子点。重复此过程,直到所选点的数量达到预定义的数量,该数量与相应分区中的像素数量成正比。这保证了训练样本总数满足整个数据总体的预定义比例。第三,将上述步骤应用于所有类别后,选择生长区域中带有标签的样本作为训练样本,其余像素作为测试样本。如果分区数量多于所需的训练样本,则再次对分区进行随机采样。算法 1 给出了该策略的摘要。

   在图3中,展示了受控随机抽样策略下训练样本和测试样本之间不同程度的重叠,可以看到,训练样本仍然分布在整个图像上,并且覆盖了大范围的光谱方差分布。虽然这种方法不能完全消除训练和测试数据之间的重叠,但可以将训练阶段测试数据的影响大大降低到每个训练区域边界的有限像素。采用所提出的采样方法的实验设置可以帮助我们更准确、客观地评估谱空间方法的性能。

 图3 Indian Pines 和 PaviaU 数据集的受控随机抽样策略。(从左到右)分别具有 5%、10% 和 25% 采样率的地面实况图和训练集。

 

  ②Cao et al. [3] 提出了 HSI 分类的四个重要因素来解释随机采样(RS)和基于非重叠采样的方法之间的性能差异。

  1)光谱特征:光谱信息是HSI处理的基础,决定了最终的分类性能。

  2)光谱-空间融合:该策略结合光谱特征和空间上下文来增加不同类之间的距离并减少同一类之间的距离,这是提高HSI分类性能最常用的方法。

  3)空间邻接:使用RS,训练样本和测试样本是从同一图像中随机选择的。这意味着训练样本和测试样本在空间上彼此相邻并且具有很高的光谱相似性。

  4)样本重叠:对于光谱空间组合分类模型,如果采用RS,在训练阶段,由于空间上下文的引入,将使用许多测试样本,反之亦然。

  在[3]中,Cao et al. 提出了一种迭代策略,在训练过程中引入空间邻接。这样,可以将光谱空间融合和空间邻接结合起来,以改进非重叠的 HSI 分类。基本思想是不对测试样本进行一步分类。用初始训练集训练一个分类器,然后使用训练好的模型对测试样本进行分类,并将这些具有高置信度的分类样本添加到训练集中。这个过程可以重复多次,以达到更好的分类结果。通过这种方法,可以在训练过程中逐渐引入空间邻接。然而,如果只使用一个分类器,由于标记结果与训练样本高度相关,增加的训练样本带来的新判别信息有限,并且累积误差可能会降低分类性能。(这篇文章是基于受控随机采样策略改进的,在受控随机采样的基础上进行协同训练)

  图4 基于协同训练的非重叠 HSI 分类

  为了提高非重叠HSI分类性能,使用两种不同的分类器来引入多样性并避免累积误差。即采用协同训练策略,具体来说,两个不同的分类器一起训练,然后,每个训练好的分类器用来标记测试样本,并选择可靠样本添加到另一个分类器的训练集中,这个过程如图4所示。可以使用具有相同特征的不同分类器,或者使用具有不同特征的相同分类器。本文使用EMP和EPF作为输入特征,使用SVM作为分类器。需要注意的是,虽然添加了高置信度的样本进行训练,但我们不能保证所有添加的样本都有正确的标签。因此,为了减少这些错误标记样本的影响,在迭代过程中,除了这些原始训练样本之外的所有样本都将使用更新后的分类器进行分类。在Indain Pines数据集上的实验如下表所示:(Co-training为文章作者提出的基于协同训练的采样策略方法,其它方法使用的是受控的随机采样策略[1])

  但是,对于此方法,我有两点疑问。第一,文章以近似增量学习的方法进行迭代训练。每次迭代会把高置信度的测试样本当作下一轮的训练样本,但是本身的数据采样是基于受控的随机采样进行的,这样会最大程度的保证训练数据和测试数据在空间上相隔。那么在使用新的测试样本时,根据选定的测试样本点选取设定patch大小放入网络,这样还是涵盖了大量的测试样本进入网络学习。第二,本来的overlap问题是训练时的patch会涵盖测试样本,那么现在此方法在每次增量迭代时直接把测试样本放入,那么是否会加重重叠问题?当然增量的样本毕竟少数,但相对于原始的受控随机采样方法,还是一定程度上增大overlap。

  ③除了上述随机采样策略,还可以通过数据集训练集和测试集的人工划分,减少相交样本,以一定程度上减少overlap问题的影响,如Houston数据集官方有提供标准的训练集和测试集[4],和划分好的Pavia University数据集。

图5 Houston数据集官方有提供标准的训练集和测试集

图6 划分好的Pavia University数据集(训练集(左),测试集(右))

 

参考文献

[1]. Liang J, Zhou J, Qian Y, et al. On the sampling strategy for evaluation of spectral-spatial methods in hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 55(2): 862-880.

[2]. Adams R, Bischof L. Seeded region growing[J]. IEEE Transactions on pattern analysis and machine intelligence, 1994, 16(6): 641-647.

[3]. Cao X, Liu Z, Li X, et al. Nonoverlapped Sampling for Hyperspectral Imagery: Performance Evaluation and a Cotraining-Based Classification Strategy[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-14.

[4]. Debes C, Merentitis A, Heremans R, et al. Hyperspectral and LiDAR data fusion: Outcome of the 2013 GRSS data fusion contest[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2405-2418.

 

posted @ 2023-10-18 10:09  AllFever  阅读(352)  评论(0编辑  收藏  举报