SGFusion: A saliency guided deep-learning framework for pixel-level image fusion

摘要:像素级图像融合,将不同的模态图像融合为信息性图像,越来越受到人们的关注。尽管已经提出了许多用于像素级图像融合的方法,但仍缺乏能够同时处理不同任务的有效图像融合方法。为了解决这个问题,我们提出了一种用于像素级图像融合的显着性指导的深度学习框架,称为SGFusion,它是一个端到端的融合网络,可以通过训练一个模型将其应用于各种融合任务。具体而言,所提出的网络使用双导编码,图像重建解码和显着性检测解码过程来同时从图像中提取不同比例的特征图和显着性图。将显著性检测译码作为融合权值,融合图像重建译码的特征,生成融合图像,可以有效地从源图像中提取有意义的信息,使融合图像更符合视觉感知。实验表明,所提出的融合方法在各种公共数据集上实现了红外和可见光图像融合,多曝光图像融合和医学图像融合的最新性能。

1. Introduction

  由于成像设备、环境影响等因素的限制,单个图片很难包含各种信息。为了获得更全面的信息,像素级图像融合用于从不同图像中提取有效信息并将其呈现在一个图像上 [1-3]。像素级图像融合包括多种融合任务,如红外与可见光图像融合、多曝光图像融合、医学图像融合等 [4,5]。红外图像包含物体的热辐射特征,而可见光图像主要表现纹理特征,红外与可见光融合的目的是获得包含更生动的目标特征和更丰富的背景细节的图像,在物体识别、监视、遥感等领域有着广泛的应用 [6]。多曝光图像融合旨在将不同光强度下的源图像进行组合,以重建具有更合理照明的图像 [7]。这样,重建的图像可以捕获整个场景的信息。MRI图像和PET图像融合是医学图像融合的重要组成部分。MRI图像包含不同组织的详细特征,而PET图像则反映了组织代谢的变化。因此,融合图像可以反映上述不同的特征,从而有效地提高了临床决策的准确性 [8]。图1显示了这些融合任务的示例。因此,图像融合技术可以生成信息更丰富、视觉感知效果更强的图像,以方便其他后处理步骤。

 

  到目前为止,图像融合在各种任务中发挥着越来越大的作用,已经提出了许多解决像素级图像融合问题的方法。融合方法大致可分为传统方法和基于深度学习的方法。传统方法需要对图像进行复杂的手动处理,并且通常仅适用于特定的图像任务。此外,以生成对抗网络 (GAN) 和暹罗网络为代表的深度学习方法由于网络本身的运行模式而无法处理不同的融合任务 [9,10]。此外,自动编码器网络可以实现跨任务图像融合 [11,12],但在权重设计中直接采用简单的加法、L1-norm或其他融合策略,这是一种普通的图像组合方式,该算法忽略了图像中的显著性信息。因此,我们需要找到一种统一有效的像素级图像融合方法。为了解决这些问题,提出了一种通用的图像融合框架,该框架可以通过训练一个模型来用于不同的图像融合任务。此外,融合图像包含来自不同源图像的重要信息,而显著性检测可以基于视觉感知提取这些信息 [13]。因此,我们将显著性检测应用于融合框架,以指导融合图像的生成。在此基础上,我们构建了多尺度双导编码融合网络 (MDEF),作为整个框架的训练部分。网络主要包括三个模块: 双导编码,图像重建解码和显着性检测解码。提出了双导编码模块用于提取图像特征,而图像重建解码模块用于恢复图像。此外,显着性检测解码不仅可以指导编码处理,还可以提供融合权重。在融合部分,我们结合融合权值和源图像提取的图像特征,得到最终的融合图像。本文的要点和贡献总结如下:

  (1) 提出了一种新颖的像素级图像融合框架,只需训练一个模型,即可应用于红外和可见光图像融合,多曝光图像融合和医学图像融合。

  (2) 利用显著性检测的特征作为融合权值,利用显著性检测来指导图像编码过程,实现图像解码过程。因此,融合结果与视觉感知更加一致。

  (3) 提出的融合框架在各种融合任务中获得了最先进的性能。

  文章的其余部分总结如下。在第2节中,我们简要总结了相关文献的工作。在第3节中,我们提出并解释了图像融合算法的网络体系结构。在第4节中,我们讨论了实验细节和结果。在第5节中,我们对工作进行了全面总结。

2. Related work

像素级图像融合在处理不同任务中起着许多作用,引起了越来越多的关注。从融合方法的两大类,即传统的图像融合方法和深度学习方法,介绍了相关工作。接下来,将详细介绍每种类型的方法,如下所示。

2.1. Traditional image fusion method

  过去,研究人员习惯于使用传统方法来实现图像融合。这些方法的主要步骤是特征提取和特征融合,通常需要根据融合任务制定。随着这些传统方法的设计方案越来越成熟,提出了许多方法。Li等 [14] 利用不同尺度的信息提取全局和细节特征,实现图像融合处理。此外,Liu等 [15] 还提出了用于多尺度图像融合处理的mst-sr。他们使用从源图像中提取的高通系数和低通系数来生成融合图像。稀疏表示作为一种代表方法也被广泛用于图像融合中。Yang等 [16] 利用稀疏表示实现了局部信息的图像融合。为解决稀疏表示中常见的细节保存差、配准要求高的问题,Liu等 [17] 提出了卷积稀疏表示 (CSR) 作为特征分解模型。此外,他们提出了一种基于卷积稀疏度的形态成分分析 [18] (cs-mca) 作为进一步的研究。Yin等 [19] 提出了一种基于非下采样shearlet变换的医学图像融合参数自适应脉冲耦合神经网络 (pa-pcnn) 模型。基于空间域的图像融合方法可以通过多种方式实现,即密集尺度不变特征变换 [20],基于加权和 [21] 等。在理解了这些方法之后,我们认为这些融合算法通常具有融合速度快和数据依赖性弱的优点。然而,手动特征提取技术复杂,不能获得良好的性能。

2.2. Deep learning image fusion method

  在burgeon研究图像处理深度学习方法的基础上,为解决图像融合问题提供了新的思路。在此基础上,我们阐述了深度学习方法,根据任务类型分为四类,包括红外和可见光图像融合,多曝光图像融合,医学图像融合和多任务图像融合。

  红外和可见光图像融合: 卷积神经网络在该融合任务中经常使用,一些研究人员将多尺度图像处理方法纳入了该通用网络体系结构 [22,23]。此外马等人 [9] 提出了一种聚变网络 -- 以信息的产生和对抗为中心的聚变网络。最近,提出了一些强大的网络。例如,Zhao等人。[24] 使用注意力机制块来融合源图像,从而起到自我监督的作用。同时,Li等人 [25] 提出了一种基于元学习的深度框架,该框架可以摆脱源图像之间分辨率不同的限制。

  多曝光图像融合: Li等人 [26] 提出了一种基于卷积神经网络 (CNN) 的多曝光融合网络,讨论了CNN对多曝光融合的有效性。随后,提出了具有不同重点的多曝光融合网络。例如,近年来提出了适用于具有任意空间分辨率和曝光次数的静态图像序列的网络 [27],以及使用颜色未参考损失函数的网络 [28]。随着GAN的发展,提出了一种新的基于生成对抗网络的具有亮度和空间位置关系自注意模块的多曝光图像融合方法。

  医学图像融合: Liu等 [30,31] 通过使用孪生卷积网络生成融合所需的权重,设计了一种医学图像融合方法。Lahoud等人。[32,444] 提出了一种实时融合网络,可以实现任意数量输入源的融合。针对手工算法和深度学习相结合的融合任务,提出了一种基于表面和深度约束的信息保存方法。

  多任务图像融合: DeepFuse [11],将图像编码和解码与简单的图像融合规则相结合,成为图像融合的创新方法。考虑到上述方法,DenseFuse [12] 使用密集块来提高图像融合的质量。由于基于自动编码的图像处理方法,这种方法适用于各种融合任务。通过对GAN的进一步研究,双鉴别器条件生成对抗网络 (DDcGAN) [35] 实现了不同分辨率的图像融合。此外,受变换域图像融合算法的启发,IFCNN [36] 被提出作为由数据驱动的通用图像融合框架。在最近的研究中,一个端到端的统一无监督图像融合网络被称为U2Fusion [37,38],它可以基于设计的自适应相似性保留机制来处理多种融合任务。

3.提出的方法

  我们提出的框架分为训练部分和融合部分。由于训练网络,因此在灰度图像上训练网络以生成显着性掩码和重建图像。下面将描述具体的网络结构和功能。在融合部分,我们利用训练部分的结构重建了一个双输入网络,并将网络提取的显着特征作为权重来融合图像并生成最终的融合结果。

3.1. Training part

  在训练部分,用编码和解码结构构建整个网络,这使得网络具有分析图像特征和特定信息的能力。基于此概念,MDEF网络的主要部分包括三个网络模块: 双导编码,图像重建解码和显着性检测解码。因此,网络可以通过关注显着性信息来重建源图像。同时,将重建损失和掩码损失两种损失函数用于并行训练网络,这对于保存重要信息并获得更好的融合效果起着重要作用。在下一部分中,我们将解释网络设计和网络体系结构的动机。

3.1.1. Motivation of network design

  首先,有必要说明为什么将双导编码,图像重建解码和显着性检测解码模块用作MDEF网络的主体。近年来,编码和解码组合已广泛用于图像融合。这些方法往往对图像的显著特征重视不够,忽略了一些重要信息。显著性检测可以有效地提取图像的主要部分 [13,39]。我们将其集成到网络中作为显着性检测解码模块,以对双导编码模块和图像重建解码模块产生良性指导。因此,我们的方法通过将显着性目标检测和图像解码组合相结合,限制了图像编码过程并有目的地指导了该过程,从而可以有效地提取源图像的有用信息。

  为了产生更好的融合结果,图像的不同尺度信息不可忽略。通常,在医学图像融合任务中,即使在同一图像中,不同疾病和组织的大小也可能具有很大的差异性。此外,来自同一区域的多个医疗设备的成像结果通常变化很大 [40,。类似地,其他融合任务可能在特定区域存在个体大小差异 [6,42,43]。因此,需要使用网络来学习多尺度特征,在我们的工作中,所有模块都是通过使用类似于UNet框架的多尺度结构来构建的 [44],该结构作为一种简单高效的网络在图像分割中得到广泛应用。

3.1.2. Network architecture

  编码和解码模块: 整个MDEF网络结构如图2所示,由一个编码结构和两个解码结构组成。双导编码模块采用五个相同的卷积架构,如相应的子模块所示。每个重复应用两个3 × 3卷积并链接到整流线性单元 (remu)。卷积体系结构的输出用作下一个体系结构的输入,也通过跳过连接作为 𝜙𝐶𝛼 传输。值得注意的是,最后的卷积架构不包含跳过连接。2 × 2最大池化操作用作每个卷积体系结构之间的互连。后续部分由图像重建解码模块和显著性检测解码模块组成,它们具有相同的结构。通过四次使用重复的卷积架构,每个卷积架构将包含与输入相同比例的编码结果,以通过跳过连接来增强网络的学习能力。在每个卷积体系结构及其上层卷积体系结构之间使用2 × 2上卷积。解码模块的最终卷积架构由1 × 1卷积组成,用于结果重构。

  损失函数: 由于需要同时重建源图像并提取图像的显着特征,因此需要两个不同的损失函数。为了便于区分它们,我们将损失函数称为图像重建,并生成显着性掩模,即重建损失 (𝐿𝑟) 和掩模损失 (𝐿𝑚)。为了构造重建损失,我们使用结构相似性 (SSIM) [45] 和平均绝对误差 (MAE) 从两个方面实现约束: 结构相似性和细节保存能力。损失函数 𝐿𝑟 可以写如下:。其中 𝜆 是控制权衡的超参数,𝐿𝑠𝑠𝑖m代表从SSIM导出的损失函数。SSIM比较了图像的亮度,对比度和结构,从而有效地反映了图像之间的相似性。用 𝑂𝑖 和 𝐼 分别输出和输入图像,𝐿𝑠𝑠𝑖𝑖可以概括为

 

 

 SSIM对强度分布差异的约束较弱。为了保存图像的高频细节,选择MAE作为另一个损失函数,以促进图像融合的进展,定义为 𝐿𝑚𝑎𝑒。.同时,使用具有logits损耗的二进制交叉熵 (BCE) 来计算掩模损耗 [46]。此损失结合了sigmoid层和BCEloss,适用于显着性检测任务。𝐿𝑚 如下式所示:.其中,𝑂𝑚 是网络输出,𝑀 是训练的输入掩码。

 

 

 

 

:

 

 

 

 

 

 3.2。融合部分

  在融合部分,我们使用训练网络来构建双输入网络。首先,将两个源图像放入MDEF网络的双导编码模块中。这样,可以从源图像中提取多尺度图像特征。同时,通过显著性检测解码提取源图像的显著性权重,并结合多尺度图像特征形成融合层。最后,我们将双导编码的最终结果和融合层结合起来作为图像重建解码部分的输入,以生成最终的融合结果。

3.2.1。权重设计的动机

  显著性检测部分产生的权重具有背景和主要区域之间的强区分 [47-49] 的特点,如图3所示,但是某些种类的图像不能有效地提取场景中的显著信息。因此,应考虑选择合适的源图像作为融合权重。

  在红外和可见光图象融会任务中,由于红外图象包含热辐射特征和目标区域具有较强的显著特征 [6,50]。基于此建立的权重考虑了红外图像中目标区域的热辐射特性和可见图像的纹理特性。但是,由可见图像生成的权重可能会丢失,尤其是在目标区域中,并且容易受到其他影响,例如照明。这种图像产生的权重往往会干扰源图像的融合。因此,在生成权重时,仅需要红外图像。

  在多曝光融合任务中,由于过度曝光图像中光照的影响,可能会丢失背景部分的特征,但在场景的主要部分保存了足够的信息量,如图3所示,这种图像更有利于从主要部分区分背景。在低照度的情况下,曝光不足的场景经常会丢失主要部分的信息,而主要部分和背景部分之间的边界是模糊的。因此,我们不使用曝光不足图像来生成权重,而是选择曝光过度图像。

  MRI图像可以提供包含结构信息和软组织图像之间的高对比度的图像 [51,52],对病理区域的检测,如肿瘤和坏死组织有很好的效果 [53]。Pet图像主要提供目标区域的功能信息,但缺少其他部分 [54]。为了确保生成的重量的完整性并保持包含在注意部分中的信息,有必要选择MRI图像以提供重量信息。

   如前所述,不同类型的源图像对各种融合任务都有限制,因此需要选择合适的源图像来生成融合权重。此外,权重设计的另一个关键点是,应该选择显著性检测解码的哪一部分来生成权重。网络中显著性检测解码部分生成的张量可以分为多尺度特征和生成的显著性图两部分,如图4左侧所示。我们的方法只使用多尺度特征生成融合层,这可以使融合方法考虑重要的区域信息和环境信息,此外,避免产生伪像,如图4所示。

  在图4中,通过地图权重生成融合图像 (a),(b) 和 (c),并且通过多尺度权重生成融合图像 (d),(e) 和 (f)。可以发现 (d) 的子图比 (a) 的子图包含更多的环境纹理。此外,在 (b) 中生成了伪像,但是在由多尺度权重生成的 (b) 的子图中避免了伪像。将 (c) 与 (f) 的子图进行比较,可以看出 (c) 缺少 (f) 具有的某些PET图像信息。总的来说,我们理解使用地图权重会导致图像质量下降,而使用多尺度权重可以有效地实现图像融合。

3.2.2. Feature fusion

  在构建融合网络时,我们使用加法策略从源图像融合编码过程的底部特征。E’'表示从编码过程的底部特征生成的融合特征。根据3.2.1节的描述,我们选择显著性检测解码部分的第一层卷积结构为 𝜙𝑊𝛼,并将它们全部视为多尺度权重。此外,我们丢弃了不能有效提取显著性信息的权重,如图5中的 𝜙𝑊∗ *。𝛼 表示四个卷积的数量。因此,融合层 𝜔𝛼 和 𝜔𝛼' 的权重生成描述如下:其中 𝜙 ′ 𝑊𝛼 由 𝜙𝑊计算,设 𝜔𝛼 和 𝜔 ′ 𝛼 之和为1。同时,我们使用sigmoid函数将 𝜌 ⋅ 𝜙𝑊𝛼 和 𝜌 ⋅ 𝜙 ′ 𝑊𝛼 约束在0和1之间。  

  此外,将编码过程中 𝜙𝐶𝛼 remaining的剩余卷积架构的结果和相应的标度显着性检测解码过程中 𝜙𝐶∗ ∗ 的上卷积显着性图进行组合,生成融合层,如图5所示,融合层可按如下方式传递:其中 𝜙𝐿𝛼 代表融合层。

 

3.3. RGB input processing

  由于网络是在灰度图像上训练的,因此我们提供了两种可行的方法来处理RGB输入。一种是将RGB输入的每个通道分别放入融合方法中,然后将融合结果合并为一幅RGB图像 [36]。另一种是将RGB输入转换为YCbCr色彩空间,并将三个通道分别转换为单个通道作为输入 [11,37]。由于我们的网络是在灰度图像中训练的,因此我们选择第二种方式来转换通道。使用源图像的亮度通道 (𝑌) 作为图像融合的输入,颜色通道 (𝐶𝑏,𝐶𝑟) 通过以下公式进行融合:

 

   其中 𝐶 1和 𝐶 2分别表示不同输入源图像的 𝐶𝑏 通道,𝐶𝑓 是融合图像对应的通道,𝛾 设置为127.5。融合图像的 𝐶𝑟 通道可以用同样的方式合成。通过SGFusion融合Y通道后,YCbCr颜色空间被反向转换为RGB空间。

 

 

 3.4. Multiple inputs processing

  通常,在多暴露融合任务中,融合的输入可能是融合序列。因此,当处理两个以上的源图像时,源图像可以顺序融合,即,其中 𝐹𝑟 表示融合结果, 是SGFusion,𝐼𝜈 是不同的源图像。

 

4.实验

为了验证方法的有效性,我们在红外可见光图像融合任务,多曝光图像融合任务和医学图像融合任务中使用所提出的方法和代表性方法进行了定性和定量的对比实验。每个实验的细节描述如下。

4.1。训练细节

  在实验中,我们选择显著性分割数据集 (ECSSD)1进行训练 [55]。该数据集同时满足以下条件 :( i) 训练图像中包含用于分割任务中的输入网络的显着性分割蒙版; (ii) 训练图像中有多种对象和背景。该数据集带来了模型的足够泛化能力,使模型适用于各种融合任务。1000其中10% 用于验证的训练数据量。为了验证所提出方法的通用性,选择TNO dataset2和马等人的数据集 [50]3来验证红外可见马ge融合任务。我们将Cai等人的数据集 [56]4的分辨率降低了36倍,以验证多曝光图像融合任务能够满足GPU的存储要求。我们使用哈佛数据集 (PETMRI)5来验证医学图像融合任务。

  由于训练数据集是RGB图像,因此我们将数据集转换为仅包含亮度通道Y的灰色图像。然后,我们将所有获得的图像切成128 × 128个补丁。我们将 𝜆 设为100。参数由RMSProp优化器更新,初始学习率为1e-5。批量大小为32。实验在NVIDIA Geforce RTX 2080 Ti GPU和3.7 GHz Intel Core i9-10900x CPU上进行。

  

 

 

 

 

 

 

4.4. Medical image fusion task

  在医学图像融合任务中,我们的方法与NSCT [65],INS [66],PAPCNN [19],Densefuse [12] 和U2Fusion [37] 进行了比较。实验使用Harford数据集中的12对图像。评价的质量指标由 𝐸𝑁 [59] 、 𝑀𝐼 [60] 、 𝑀𝐸𝑆𝑆𝐼𝐼𝑀 [[12,61] 、 𝑆𝐶𝐷 𝐷 [67] 确定。𝑆𝐶𝐷 通过源图像和融合图像之间的相关性来评估图像质量。在表3中,结果表明我们的结果领先于其他方法,尤其是在 𝑀𝐼 和 𝑆𝐶𝐷 中。实验表明,该方法可以很好地保留图像的结构和细节,这表明多尺度特征提取在图像融合中起着不可磨灭的作用。

  医学图像融合任务需要合并来自MRI图像的信息,而不会干扰PET图像的颜色信息。从图8可以得出结论,可以很好地保留通过我们的方法生成的图像中的低比例细节信息。同时,我们的方法保留了大脑中软组织的结构信息,而没有伪影。此外,通过我们的方法生成的融合图像可以很好地恢复来自PET图像的信息,而不会干扰从MRI图像中提取的信息。

 

  融合网络框架的比较。左边是比较法的框架,右边是提出的方法的框架,图中包括的具体网络结构如图2所示。此外,“mean” 表示对相应输入的特征进行平均。

 

 

 

4.5. Ablation experiments

  我们提出的方法使用双导编码过程和显着性检测解码过程来生成融合权重,而权重和网络体系结构都对融合结果产生影响。为了验证其有效性,我们取消了网络的显着性检测解码过程,并将融合方法更改为平均权重,以完全消除显着性检测的影响。我们将此方法称为比较方法,框架如图9所示。比较方法的结果在表1、2、3中命名为Base。可以发现,在每个任务中,我们提出的方法的指标都优于基础。详细地说,在红外和可见光图像融合中,我们可以发现与比较方法相比,我们的方法在纹理细节和结构保留方面有很大的改进。同时,我们的方法提高了多曝光图像融合任务中的信息保存能力。此外,将该融合方法应用于医学图像融合时,与基本方法相比,在 𝐸𝑁 和 𝑀𝐼 两个指标上取得了明显的效果。

  所提出的方法和比较方法的定性结果如图10所示,可以发现所提出的方法的纹理细节在第二和第四张地图的详细图中更加明显。但是,在第一和第三子图中,每个结果中的显着区域更为突出。具体地说,显著性体现在直升机与环境的比较上,体现在岛与海的比较上

 

 

5. Conclusions

  在这项工作中,我们提出了一种用于像素级图像融合的显着性指导的深度学习框架,称为SGFusion,该框架可以适应各种不同的融合任务。SGFusion包含三个部分,即双导编码,图像重建解码和显着性检测解码。它们用于分析源图像的显着性信息。显著性检测解码不仅可以指导双导编码过程,还可以生成融合权重,从而帮助图像重建解码生成融合图像。实验结果表明,该融合网络通过训练一个模块,可以在可见光和红外图像融合,多曝光图像融合和医学图像融合中达到最先进的效果。

 

 

 

posted @   爱喝橙汁  阅读(456)  评论(1编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 上周热点回顾(2.17-2.23)
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
点击右上角即可分享
微信分享提示