AI2

摘要

在我们的日常生活中，拍摄照片时我们不但要选择能拍的清晰的摄像机，而且还希望在同一场清下，我们所拍到的所有物体都是清晰的。但是由于摄像机会受到景深的限制，没有办法对拍摄的所有目标都聚焦，因此导致拍摄的照片聚焦部分是清晰的，但是不聚焦的部分就是模糊的，将同一个场景下拍摄的不同聚焦区域的图片融合成一张清晰图片的技术就是多聚焦图像融合技术，此项技术就可以很好地解决图像不清晰这一问题。更好地把图像的利用率提升起来。

传统的融合算法主要有基于空间域的算法和基于变换域的算法。多尺度变换的算法在多聚焦图像融合中应用比较广泛，但由于部分算法在融合后产生细节信息丢失以及运算耗时较大等问题。本文主要研究的目的是利用经典的融合算法结合卷积神经网络算法解决上述所存在的问题。针对现有多聚焦图像融合算法融合后出现边缘细节信息丢失这一缺陷，本文提出了一种基于鲁棒性主成分分析法以及改进全卷积神经网络的多聚焦图像融合融合算法，本文的主要研究内容如下：

（1）针对多聚焦图像融合的基本概念，本文从多个方面介绍了多聚焦图像融合的经典算法以及近几年比较热门的算法。首先，对多聚焦图像融合的基本概念进行了基本阐述；其次，对多聚焦图像融合的经典算法和近几年热门算法的主要中心思想进行了详细阐述；再次，对以往经典算法以及热门算法中具有代表性算法的性能优越性以及不足进行了分析和总结；最后，对多聚焦图像融合的评价指标进行了说明。

（2）对本文数据集的预处理过程进行了详细介绍，包括数据集的制作以及数据集的预处理；因为预处理作为图像融合的第一步也是主管重要的一步，为了展示其重要性，因此首先对图像的融合过程进行一定介绍，然后结合应用场景介绍了目前数据集预处理的多种手段及方法，最后，介绍了本文所运用的数据集预处理方法。

（3）针对目前多聚焦图像融合算法所存在的缺陷，本文提出了改进的全卷积神经网络的多聚焦图像融合算法。较以往的全卷积神经网络模型来看，本文所设计的网络模型更加轻便、网络层级更少，在与目前运用较广泛的卷积神经网络模型相比，此模型在运行质量提升的情况下还保证了运算速度的提升。首先，采用基于鲁棒性主成分分析法（Robust PCA)下对原数据集进行特征提取，相较于传统的全卷积神经网络，本文将目前经典的siamese网络结构的思路运用到本文中，将全连接层换为全卷积层，实现了图到图的实现，大大提升了运算速率，通过softmax层对图像进行分类，最后通过设置分类器，防止像素点样本偏移。在多组实验的彩色灰色数据集验证下，本文所提出的算法与目前多聚焦图像融合的卷积神经网络算法相比，融合速度大大提升，更具有实际应用率，融合质量也有相应提升，说明了此算法相比其他算法更具运用价值。

关键词：多聚焦图像融合，全卷积神经网络，RPCA，数据集预处理

In our daily lives, when we take pictures, we are not the only ones to choose a clear camera but it is also hoped that whatever we shoot will be in the same clear conditions. It will be clear. However, since the camera is limited by the depth of field, it is unable to focus on all the objects in the lens, so the lens's focus is very clear. But the immovable part of the lens is not focused. Multiple Focus Image Fusion is a way to combine different images in a single scene, a fusion of focus area images in clear imaging technology. This technology can solve the problem of blurred images. Improve the use of images

Most traditional fusion algorithms are based on local domain and transformation domain. Multi-scale conversion algorithm is widely used in multi-focus image fusion. But some algorithms lose detailed information and take a long time. The main purpose of this article is to use the classical fusion algorithm and the neural network algorithm. An improved Multifocus Immigration Fusion Algorithm (RPCA) and a neural network have been proposed to address the shortcomings of several image fusion algorithms to solve the above problem. Missing detailed edge. The main content of this article is as follows.

(1) In order to achieve the basic concept of multifocus image fusion, we will introduce the classic multifocus image fusion algorithm and some common algorithms. First, we will explain the basic concepts of Multifocus Image Fusion, then we will introduce in detail the basic concept of the classic Multifocus Imagination Fusion Algorithm and the derived algorithm. Third, analyze and summarize the performance advantages and disadvantages of classical and traditional algorithms in recent years. Finally, a diagnostic index of multi-focus image fusion will be explained.

(2) This article introduces pre-processing steps for datasets, including dataset formation and dataset preparation. The pre-operation is the first stage of imaging fusion, so to prove its importance, we will first demonstrate the default method by combining the process of image fusion with the image scenario. The results of different datasets and I will finally introduce the pre-developed method of dataset used in this article.

()) An improved neural network image fusion algorithm has been proposed which eliminates the shortcomings of the existing multi-focus image fusion algorithm. Compared to current neural network models, the network model built in this white paper has more portability and less network layers. Compared to the widely used neural network model today, it also guarantees a faster neural network model. Better quality of operation Previously, the features of the original dataset were retrieved using a stronger PCA than conventional neural networks. Decisively, this article covers the current classic Siamese network topology and replaces fully connected layers with fully convincing layers that provide sense and calculation speed between images. Significantly improve and rank images. Through the Swift Max class. Finally a classification will be set to prevent pixel samples from moving. Compared to the current multi-focus image fusion algorithm, this algorithm has faster fusion, higher utilization rate and higher quality of fusion. This makes it more valuable than other algorithms, which shows that it available.

Keywords: Multi Focus Image Fusion, convolutional neural network, RPCA, data set preprocessing

1.绪论

1.绪论 2

1.1 研究背景和意义 2

（1）多聚焦图像融合 3

（2）遥感图像融合 4

（3）红外与可见光图像融合 4

（4）医学图像融合 5

1.2 国内外研究现状 6

1.3 本文主要工作内容 8

1.4 本文结构安排 8

2.多聚焦图像融合概述 9

2.1多聚焦图像融合的层次划分（书） 9

2.2多聚焦图像像素级融合算法 11

1.绪论

1.1 研究背景和意义

随着电子技术，计算机技术和大规模集成电路技术的光速发展，传感器技术不断发展，这些涉及到的技术在军事和民用领域得到了广泛的应用[1]，这大大增加了所收集数据的类型和数量，使其成为可能。难以使用具有大量数据处理功能的传统单传感器数据处理方法[2.3]。数据处理是单传感器数据处理的问题。这种数据处理方法利用本地，空间和时间系统中多个传感器的冗余性和完整性来执行多层面，多层次和多层次的计算。获得更丰富，更准确，可靠和高效的信息[4]

图像融合，也称为多传感器图像融合，主要集中在图像数据上，属于数据融合领域。与传感器，图像处理，计算机信号处理和人工智能不同，图像融合领域被视为上述领域中的一些交叉学科[5]记录来自不同类型传感器或场景中同一传感器的Doford图像。只有在不同的时间或以不同的方式拍摄的图像，并使用特定的算法将它们组合起来，以更新场景中的新图像以获得清晰的图像，这是融合的基本原理。克服每个传感器图像在分辨率，形状和光谱方面的差异和局限性，以更好地识别，理解和记住事件和物理学（1979年，Daily等人，Landsat）。MSS图像用于地质解释。可以认为处理是最简单的图像融合。在1980年代初期，图像融合技术被用于分析和处理遥感多光谱图像，而在1980年代下半叶，则应用了图像融合技术，它在可见光图像和红外图像等常规图像处理中，采用了传统的图像处理技术。在1990年代初期，图像融合技术被广泛用于远程图像处理中。由于聚焦范围有限，光学传感器的成像系统无法清晰地拍摄场景中的所有物体。当被摄对象位于成像系统的焦点时，图像平面上的图像清晰。但是在同一场景中，像平面上其他位置的物体的图像是模糊的[6.7]光学技术的飞速发展提高了成像系统的分辨率。但是不能排除聚焦范围限制对整体摄影效果的影响，以使同一场景中的所有被摄对象清晰可见。在图片平面上拍照时，这会变得很重。这对于分析和理解准确的图像很有用[6]，此外，分析相对大量的相似图像不仅费时，而且浪费了设备的内存[7]，从而导致耗竭，不可避免地浪费了存储空间和能源。获取同一场景中所有物体的清晰图片的方法使场景信息更加全面，更具反射性，对于准确分析和理解图像具有重要的研究意义。融合主要分为以下四个类别：

（1）多聚焦图像融合

大多数成像系统（例如DSLR相机）具有有限的景深，这使场景的内容在距成像平面有限的距离内聚焦。具体地说，接近或远离焦点的对象在图像中显得模糊（无法聚焦），某些对象会导致整个图像不清晰。多焦点图像融合（MFIF）旨在从同一场景中的两个或更多个部分聚焦的图像中重建一个完全聚焦的图像。通常，会拍摄局部聚焦的照片。这意味着，如果在拍照时单击某个特定位置，则该位置将处于焦点位置，其余位置将失去焦点。可以将图像聚焦在多个部分上将图像组合在一起以形成一个完全聚焦的图像。图1-1为多聚焦图像融合示例。

图1-1 多聚焦图像融合示例

Figure 1-1 example of multi-focus image fusion

（2）遥感图像融合

遥感图像融合是根据特定规则处理来自多个遥感器的图像数据和其他数据，以及在空间或时间上处理多个冗余或补充源的过程。（或算法）专注于做到这一点。获取更准确和完整的信息。生成比单个数据具有新的空间，光谱和时间特征的合成图像。这不仅仅是信息的简单组合。它还着重于有用的主题信息，消除或抑制无关信息，并着重于优化信息以改善目标识别的视觉环境。提高解释的可靠性，减少歧义。（例如歧义），缺陷，不确定性，错误的改善），改进分类并扩大其使用范围和有效性。遥感图像数据融合是处理来自多个遥感器的图像和其他数据的过程。重点是根据特定规则在空间或时间上处理这些多个冗余或补充源。

图1-2是遥感图像融合的一个示例。

（a）多光谱图像（b）全色图像（c）融合图像

图1-2 遥感图像融合

Figure 1-2 Remote Sensing Image Fusion

（3）红外与可见光图像融合

在检索场景中的目标信息时，可以说红外检测器处于活动状态，并且可以在白天或晚上正确显示隐藏的热目标。但是，它受场景本身的辐射特性，长时间的系统运行，传输距离和大气衰减的影响。红外图像对比度低，空间相关性强，对目标细节的响应差。可见光探测器可以弥补红外探测器的缺点，即具有低功率图像对比度和不足的目标细节反射能力。然而，当在场景中捕获目标信息时，可见光检测器通常是被动的，并且在黑暗或恶劣的天气下所捕获图像的质量很差。红外图像可以弥补可见光图像的这些缺点。图1-3显示了红外和可见光图像融合的示例。

(a) 可见光图像（b）红外图像（c）融合图像

1-3红外与可见光容和图像

Figure 1-3 infrared and visible light features and images

（4）医学图像融合

医学成像已成为现代医学的组成部分，其在整个临床实践中的使用不仅在外科手术和放疗的诊断，计划，设计和执行中起着重要作用。并评估表现现在可以将医学图像分为两个部分：解剖图像和功能图像。大多数解剖图像描述了人体的形状，包括CT \ MRI \ US射线照片以及各种内窥镜拍摄的一系列图像。 DSA成像，MRI技术的MRA成像和US成像的多普勒成像之间也存在一些特殊的相关性。大部分功能性图像都描述了人体的代谢数据，例如PET，SPECT，FMRI，也有比较常见或较不常见的成像方法，例如EEG，MEG和FCT。

（a） MRI （b）CT （c）融合图像

图1-4 医学图像融合示例

Figure 1-4 medical image fusion example

作为多源图像融合的重要领域，多焦点图像融合是解决成像系统中焦距限制的有效方法[8]。该方法主要用于在相同成像条件下通过同一光学传感器采集到的具有不同焦点目标的多福图像的融合处理。使用特定的融合算法提取特定场景中不同对象的已注册多福聚焦图像。这些聚焦图像的清晰区域对场景中的所有对象都是透明的。它统称为融合图像[9-11]。多焦点高光融合技术可使不同图像距离处的物体清晰地显示在图像中，为特征提取，目标识别，跟踪等以及图像信息的使用和系统可靠性奠定了良好的基础。有效提高。它扩大了时间和空间的范围，并减少了不确定性[10]。它在遥感技术[12，13]，医学成像[14-16]，军事行动和安全监视[17-19]领域中具有广泛的应用。

1.2 国内外研究现状

早期的小波变换技术被广泛应用于图像融合处理中，以克服金字塔变换的缺点，例如大量的冗余数据。在1990年代中期，诸如Sweldens之类的学者提出了提升小波变换。与传统的小波变换相比，所有提升小波计算都是在空间域中进行的，并且运算速度更快，因此，它也被引入到融合分支中，这将提高内容和有效性。小波变换具有出色的多分辨率和时频定位功能。但是传统的小波变换只有一个奇异点，只能捕获有限的方向信息，导致方向表面多种多样，不能有效地反映高维奇点。为了克服传统的小波缺点，诞生了一种多尺度几何变换。它被广泛使用，因为它最能代表某些高维函数的奇异性。到目前为止，许多转换包括Meyer和Coifman在1997年提出的Brushlet，Dohono和Ridgelet提出的Wedgelet，Candes在1998年提出的（Ridgelet变换），1999 Candes和Dohono提出的Curvelet，Bandlet，Pennec和Mallat提出的2000年。，Huo于2001年提出的Beamlet和Do和Vetterli于2002年提出的Contourlet，Velisavljevic于2004年提出的Directinlet，Guar和Laborate于2005年提出的Shearlet SFCT（Sharp Frequency Localization Contourlet Transform。）由Lu和Do于2006年提出，以及近年来，由NSCT Cunha（非向下采样Contourlet变换）提出的非采样Contourlet变换，Lim在2010年提出的NSST（非下采样Shearlet变换）等，在过去，学者们已经应用了多尺度几何变换。在图像融合领域2007年，Nencini F.等人将曲率变换应用于图像融合，遥感和比该算法更好的融合效果；基于小波变换的图像融合；刘胜鹏等人。为了获得出色的视觉效果，Qu Xiaobo等基于SFLCT的图像融合算法提出了一种改进的拉普拉斯算力和多焦点图像的方法，以达到优异的视觉效果。融合效果优于使用Contourlet变换的融合算法。但是照片融合表明一些学者还提出了一种使用NSCT的多焦点图像融合算法，以及一种将NSCT和空间频率激励脉冲与支架一起使用的图像融合算法，人工神经网络（PCNN）融合效果优于使用轮廓绘制和图像融合的图像融合算法。 SFLCT变换。但是，该算法已经使用了很长时间，王朝晖等人提出了基于Shearlet和PCNN变换的图像融合算法，尽管它们比基于NSCT变换的效果更强大，但是引入了“伪像”提出的红外和可见光图像融合算法是基于NSST变换的，许多尺度不仅继承了小波分析的优越性。但是它也克服了小波变换的缺点，能够很好地解释图像，，多尺度几何变换理论还处于刚刚开始的萌芽阶段，其在图像融合中的应用还需要进一步的研究和扩展。

随着图像融合和深度学习领域的发展，专家学者将深度学习算法应用到了图像融合领域。由于具有良好的特征提取能力，将卷积神经网络(CNN)作为应用到图像融合任务中。文献【20】提出将 CNN 应用于多聚焦图像融合任务中。该文献提出了一种基于 CNN 的多焦点图像融合方法，该方法成功摆脱了手动设置融合规则的限制。文献【20】中 H. Tang 提出使用逐像素卷积来进行图像融合。文献素卷积来进行图像融合。文献【21-22】中 M. Amin-Naji 提出了具有整体学习策中 M. Amin-Naji 提出了具有整体学习策略的基于投票的方法进行图像融合。文献方法进行图像融合。文献【23】中改进了 CNN 模型，使其避免了在训练网络过程中消耗的大量资源，采取了全卷积层结构对图像特征进行提取，以降低模型的复杂性。

在图像融合应用方面，最早是美国将卫星侦察多传感器图像传回地面进行融合，即早期的遥感图像融合。美军应用对应融合规则将多光谱与全色图像融合得到清晰遥感图像供研究使用。军事领域中，美国自动化技术系统(C3I)可以将侦察获得的红外和可见光图像进行图像堆叠，获得人眼视觉上清晰的侦察图。2008 年，美国德州仪器公司自主研发了全自动图像融合设备，在 C3I 的基础上更新了融合规则，对红外和可见光图像进行更清晰快捷的全自动化融合，被应用到实际军事活动中，可在夜晚环境下提高多兵种多领域行动效率。医学领域中，图像融合主要应用在核磁共振图像(MRI)和电子计算机断层扫描图像(CT)的融合任务中，旨在将 MRI 图像中的器官结构和 CT 中的软组织结构，如骨骼合并到一起，得出清晰的病理诊断图像，帮助医生更精确地对疾病进行确诊，减少诊断错误率。

国内图像融合发展于二十世纪末，文献【24】于1995年在国内首次提出了多光谱图像融合，为国内图像融合奠定了基础。文献【25】于1996年将图像融合技术应用到医学中，拓宽了图像融合在国内科学领域的应用场景。之后国内图像融合技术快速发展，基于空间变幻的图像融合技术【26】和基于小波变换的图像融合技术【27】在不久后分别被提出，随后，图像融合在国内各个学科中均得到快速发展，并且与国际研究接轨，对我国科技发展和经济建设具有重要意义。

1.3 本文主要工作内容

本文针对多聚焦图像融合算法上的改进进行了深入研究，通过利用目前热门算法与喜欢同算法PCA相结合，以达到保留下更多细节信息的目的，使得无论是在运行速度还是融合质量上都有所提高，本文的只要工作内容如下：

（1）结合图像融合信息技术的研究背景和意义，也对多聚焦图像融合的研究现状进行了详细的介绍，针对传统算法以及运用较多的热门算法也进行了详细分析。

（2）图像融合整个步骤较为复杂，图像预处理作为第一步也是至关重要的一步，本文也详细介绍了数据集的制作以及数据集的预处理，分析应用场景，指出了本文数据集制作方法。

（3）本文在基于全卷积神经网络算法优势的基础上，再结合传统算法的优势，提出了一种基于RPCA与全卷积神经网络的多聚焦图像融合算法。避免了传统算法在运算速率较低以及卷积神经网络算法丢失边缘信息这一缺陷。采用基于鲁棒性主成分分析法（Robust PCA)下对原数据集进行特征提取,将全连接层换为全卷积层，实现了图到图的实现,通过softmax层对图像进行分类，最后通过设置分类器防止样本偏移通过设计的网络结构，对数据进行训练，最终得到决策图，得出融合结果。

1.4 本文结构安排

本文主要针对多聚焦图像融合算法现目前存在的问题，解决方案以及结合卷积神经网络的相关知识，包括图像预处理、图像数据融合、最后再到主客观评价，全文包括五章，具体如下：

第1章绪论。对图像融合研究背景、意义进行阐述，又对目前多聚焦图像融合的国内外研究现状进行了详细介绍。

第2章多聚焦图像融合概述。对多聚焦图像融合的层次划分进行了介绍说明，详细介绍了像素级融合算法以及四种融合方法，并对四种方法进行了展开分析。

第3章图像预处理概述。结合多聚焦图像融合，有针对性的介绍了数据集的制作与预处理，总结了数据集制作与数据集预处理应用的场景以及优缺点。

第4章基于RPCA与全卷积神经网络的多聚焦图像融合。本章主要研究了RPCA算法的原理知识以及全卷积神经网络的网络结构。首先介绍了RPCA算法的相关知识，然后分析了经典卷积神经网络的网络结构，最后将改进的全卷积神经网络与RPCA算法相结合成本文的目标算法，在此算法上针对多组数据来源的图像进行比对验证，验证了此算法的有效性。

第5章总结与展望。对本文所提出的基于PCA与全卷积神经网络的多聚焦图像融合算法进行总结与分析，对还存在的问题进行总结与分析。

1.5 本章小结

本章首先介绍了图像融合的研究背景和意义，分类展示了多聚焦、红外与可见光、医学图像的融合相关知识；其次介绍了图像融合研究现状；然后阐述了本文的主要工作内容以及结构安排。

2.多聚焦图像融合概述

2.1多聚焦图像融合的层次划分

根据多焦点图像融合过程的阶段，可以将聚合物图像融合分为三个级别：像素级图像融合，特征级图像融合和决策级图像融合。

像素级图像融合过程如图2-1所示。此级别的图像融合直接使用适当的融合算法来处理原始图像的灰度数据。主要目标是图像增强，图像分割和图像分类。 29-31]。像素级图像融合是其他级别图像融合的基础，也是图像融合领域的热点。与其他级别的图像融合相比，像素级图像融合最大程度地提高了源图像的原始信息，具有最高的融合精度，更丰富，更准确和更可靠的图像。可以获取详细信息。但是，这些好处很耗时。由于对源图像的对准精度有很高的要求，融合过程需要处理大量的详细图像信息，处理时间较长，并且难以实现实时处理。

图2-1像素级图像融合过程

特征级图像融合过程如图2-2所示，该图像级融合从原始图像中提取属性并转换提取的属性数据。（角度，曲面，数据线，边线等）作为属性向量执行融合步骤以为决策级融合做准备[32-34]特征级图像融合是中间图像融合。它在融合过程中存储了足够的关键数据，压缩了重要的图像数据，易于实时处理，并添加了决策分析所需的特征数据。可以转换。但是，在融合过程中压缩大量数据很容易导致有用信息的丢失。最常用的特征级图像融合方法是核心成分分析，神经网络，聚类分析和刺刀推断。这些方法主要用于图像分割和目标检测[17]。

图2-2特征级图像融合过程

决策级图像融合过程如图3-3所示。根据多传感器图像的独立确定性和可靠性，此级别的图像融合可分类和识别由多个传感器捕获的同一场景的不同成像特征。图像融合过程性能很高，融合结果可直接用作决策者的参考[35-37]。决策级融合属于更高级别的图像融合。在融合过程中处理的对象是各种特征信息，具有强大的实时，分析和容错能力。此外，决策级图像融合可以高效地表示不同类型的信息，例如环境和目标，具有高灵活性，低流量和强大的抗干扰然而，其预处理成本很高，在融合过程中原始图像信息的损失很大，受决策者的需求所限制，并影响了其传播和应用范围。常用的方法包括投票方法，统计方法，模糊逻辑方法和Dumpster-Shaferz推断方法[2]。

图2-3决策级图像融合过程

像素级图像融合在融合过程中提供的信息丢失更少，并且可以提供其他融合级别无法提供的更多信息。融合的结果是一幅图像，使观察者可以更快，更直观，更全面地识别图像中的场景，从而有助于进一步分析，处理和理解图像[38，39]。像素级图像融合是图像融合领域研究最多的主题之一。为了便于对不同融合方法的性能进行比较分析，本文将仅使用两个源图像执行多焦点图像仿真实验。实验源图像来自标准的多焦点图像测试集[40，41]。

2.2多聚焦图像像素级融合算法

根据多焦点图像融合的特性以及后续图像处理的各种需求，一种好的融合算法必须遵循三个基本原则：

（1）融合算法必须能够在源图像中完全保留显着特征信息，例如边缘，纹理和其他信息。

（2）融合算法应尽量减少不相关或不一致信息的呈现，以免影响图像质量和融合图像的处理。

（3）融合算法必须具有强大的抵制原始图像中的配准误差和噪声的能力。

如今，大多数多焦点图像融合算法都是基于以上三个基本原理设计的。多焦点图像融合算法的关键是准确确定聚焦区域的特征，并准确识别和提取聚焦范围内的区域。这也是多焦点图像融合技术的问题之一。尚未很好解决。多年来，国内外学者提出了许多性能优异的算法，用于在多焦点图像的像素级融合过程中选择和提取焦点区域。这些算法分为两类[42]：空间域中的多焦点图像融合算法和转换域中的多焦点图像融合算法。空间域图像融合算法适用于原始图像的像素灰度。转换域图像融合算法对原始图像进行转换，并根据融合规律对转换因子进行处理，并对逆处理后的转换因子进行如下转换：得到融合图像。多焦点图像融合过程如图2-4所示。

图2-4 多聚焦图像融合过程

2.2.1 空间域多聚焦图像融合算法

空间多焦点图像融合算法是一种感知像素灰度区域的融合算法。该方法使用一种方法来基于原始图像中的像素灰度来表征各种聚焦区域，以分离聚焦区域中的像素或区域，并根据融合规则获得融合图像。该算法的优点是简单，易于使用的方法，较低的计算复杂度，并且融合图像包含原始图像的原始数据。缺点是存在声音干扰的风险，并且更容易发生“阻塞效应” 空间域多聚焦图像融合算法主要分为两类：基于像素点的融合算法和基于区域的融合算法。

基于像素的融合算法主要包括加权系数法和域窗法。加权因子方法根据像素的灰度值的大小来计算像素的加权因子。鲍威尔的G [43]根据单个像素的灰度值计算加权因子。主成分分析（PCA）[44]是加权平均融合方法，如图2-5所示。这是按行或列对图像进行优先级排序的更常用的方法。形成列向量，并且协方差如下所示：计算列并根据协方差矩阵选择特征向量。如果源图像相似，则此方法类似于均值融合。如果源图像时间具有某些共同特征，则可以获得更好的融合效果。如果源图像时间特性非常不同，则很容易引入。融合的图像错误的信息会导致融合结果失真。该方法计算简单且快速，但是单个像素的灰度值不能代表其所在图像区域的焦点特性，从而导致轮廓模糊和对比度降低。发生。域窗口方法根据像素域窗口的显着特征级别选择像素。典型的邻居窗口大小为3 * 3 [45]，5 * 5 [46]和7 * 7 [47]。李志等。 [48]是一种基于2003年像素聚焦特性的多聚焦图像融合算法，使用了所有像素的可见性（VI），空间频率（SF）和边缘函数（Edge）。建议的。功能的组合EF）用作单个像素的焦点特性。通过比较单个像素的焦点特性来进行像素选择。邻域窗口方法综合考虑了灰度值。改善了焦点区域中像素选择的准确性，以改善单个像素与其相邻像素之间的相关性，从而改善了融合图像的质量。但是，当这种方法计算单个像素的焦点特性时，它等效于“重新分配”每个像素，从而导致融合图像中相邻像素之间的一致性变得更低。另外，这种方法对噪声敏感，会错误地从源图像中选择像素[49]。

图2-5 PCA图像融合原理图

针对基于像素的融合方法的问题，学者们提出了基于区域的多焦点图像融合方法。基本思想是基于源图像的划分来评估每个区域的聚焦特性，并合并聚焦区域以获得融合图像[50]。基于区域的多焦点图像融合方法可以分为两种类型：基于区域的融合方法和基于块的融合方法，因为它们需要考虑两个主要问题：区域划分和区域选择。 ..

基于区域分割的图像融合算法利用区域一致性将源图像划分为不同的区域，计算每个区域的焦点特征，并根据相应的融合规则对焦点区域进行合并，得到融合图像。去做。 Li S [51]使用法线分割算法对源图像进行分割，并通过计算每个区域的空间频率来确定焦点区域。这提高了定位精度和融合质量。但是，算法更复杂且运行相对较慢，因此它们对实时处理没有用。研究人员提出的改进方法主要包括基于水平集的方法[52]，分区和合并方法[53]，K均值[54]和基于模糊聚类[55]的方法。这些方法可以更准确地提取焦点区域并提高融合图像的质量，但是它们相对依赖于所使用的分割算法的性能，计算复杂且速度慢。它并没有真正的帮助。 -多焦点图像的时间处理，难以宣传和应用。另外，分割算法基于场景对象的区域一致性。如果场景对象位于焦点和散焦区域的交界处，则分割后的焦点区域将在相邻的散焦区域中包含一些像素。它降低了Fusion的图像质量[56]。

基于块的图像融合算法将源图像划分为多个图像子块，计算每个子块的聚焦特性，并根据相应的融合规则对聚焦子块进行合并，得到融合图像。 ..图2-6显示了基于分割的多焦点图像融合过程。

图2-6 基于块划分的多聚焦图像融合原理图

2.2.1 变换域多聚焦图像融合算法

由于空间域多焦点图像融合方法的图像细节性能有限，因此研究人员提出了一种基于转换域的多焦点图像融合方法，并尝试使用多尺度转换方法实现图像融合。 .. ..多尺度转换方法更符合人类视觉认知的特征，因此它提供了人类视觉敏感和强烈的对比度相关信息，可用于生成高质量的融合图像。 ..

基于变换区域的图像融合方法对源图像执行多尺度变换，并将源图像分解为高频子带系数和低频子代系数。根据不同的融合规则，对每个后代的变换系数进行融合，并对每个融合后的子带系数进行逆变换，得到融合后的图像。图2-7显示了基于变换域的多焦点图像融合过程。

图2-7 基于变换域的多聚焦图像融合过程

根据各种多尺度变换方法，可以将变换域的多焦点图像融合算法分为基于金字塔的融合算法，并将小波变换电导率（Laplacian Pyramind，LPA）用作视觉融合。该系数由绝对最大值的原理确定。融合以获得更好的融合效果。然后使用图像融合算法，例如低传输速率金字塔变换，对比度金字塔变换和形态金字塔变换。尽管这些算法取得了良好的效果，但是仍然存在缺陷，例如，降级层之间的冗余数据，无法准确指出每个降级层的相关性，无法检索详细信息以及高频数据。它被严重浪费了。

考虑到金字塔变换的不足，研究人员提出了一种基于DWT的图像融合方法。 DWT是一种多尺度转换方法，由于其时域和频域特性而被广泛用于图像融合。优秀基于小波变换的图像融合方法被广泛使用，融合效果很好。但是，图像中的奇异点表示最合适。然而，奇异的线和弯曲的表面是稀疏的。你不能随着多尺度几何分析理论的发展，多尺度几何分析的新方法被应用于图像融合领域，以提高融合图像的质量。为了进一步提高基于多尺度变换的图像融合方法的效率，研究人员尝试将不同的多尺度变换方法结合起来，或者将多尺度转换方法与其他方法结合起来，以在合成上述转换域的图像时获得图像融合。多焦点图像融合算法中，大多数缺陷是由于复杂，费时的复杂退化过程，高频系数所占面积大以及数据丢失容易而引起的。近年来，在融合领域中出现了许多新的融合方法。聚焦图像融合。视网膜启发模型，稀疏性能，形态技术，未采样剪切波，奇异衰变等

2.3多聚焦图像融合质量评价

近年来，图像融合在各个领域中的应用得到迅速发展，并且对于相同的源图像和相同的源图像，可以通过不同的融合方法获得融合图像。如何客观，系统和定量地评估这些融合图像的质量，对于融合算法的选择和改进以及新融合算法的设计非常重要。由于图像的类型，观察者的兴趣以及任务要求的影响，当前的融合质量评估问题尚未得到完全解决。在融合图像质量评估中，研究人员提出了许多算法，这些算法主要用于图像采集过程的质量控制，图像处理系统的设计以及图像处理系统和图像处理算法的基准测试。但是，到目前为止，还没有将主观和客观因素结合在一起的通用图像质量评估系统。常用的融合质量评估可分为主观评估和客观评估。

2.4.1融合图像质量主观评价

融合图像的主观评估是一种高度主观的视觉检查方法，该方法针对人类，评估融合图像，并根据融合图像的保真度和清晰度评估融合图像的质量。 ..由于人类视觉对颜色差异和图像边缘的变化敏感，因此主观评估方法可评估图像信息中的明显差异，例如配准错误，颜色失真和边缘断裂所导致的重影。它将更加主观，更快，更方便。，这样的。但是，由于图形的类型，观察者的兴趣，任务的要求以及外部环境的影响，主观评价是高度主观的并且是单方面的。尽管可以从大量统计数据中获得相对准确的质量评估，但是该过程需要大量时间，人力资源和物力，而且非常复杂。表2.1是国际认可的主观视觉评估标准。 9点系统和11点系统可以看作是5点系统的扩展，但是它们比5点系统更精确。 [57]。

分值	质量尺度	妨碍尺度
5分	非常好	丝毫看不出图像质量变化
4分	好	能看出图像质量变化但不妨碍观看
3分	一般	能清楚地看出图像质量变化，对观看稍有妨碍
2分	差	对观看有妨碍
1分	非常差	非常严重的妨碍观看

2.4.2融合图像质量客观评价

在大多数情况下，很难主观正确地评估融合图像中的细微差异。为了更准确地评估融合图像的质量，研究人员提出了几种客观评估指标，并且客观评估指标和主观评估值的结合消除了主观因素的干扰并将其融合。需要确保图像质量评估的有效性，准确性和稳定性。通常用于融合图像质量的客观指标是：

1.信息熵

图像信息主要用于测量融合图像的信息丰富度。值越高，融合图像中包含的信息越丰富，融合图像的质量越高。图像信息熵的定义如下：

（2.1）

其中，N为图像总的灰度级数，为图像中像素灰度值i在图像中出现的概率（通常去灰度值i的像素个数与图像总像素数的比值）

。

2.最高峰值信噪比（PSNR）

最高的信噪比主要反映图像信噪比的变化，并用于评估图像融合后信息量是否增加以及是否减少了噪声。图像的最大信噪比定义如下：

（2.2）

其中，图像大小为M*N，图像中的最大灰度，为融合图像中的像素，为标准参考图像中的像素。

3.互信息（Mutual Information，MI）【58】

互信息可用于测量融合图像从源图像继承的信息量。值越高，融合图像从源图像获得的信息越多，融合图像的质量越好。图像A和图像B以及融合图像F信息量MI定义如下。

(2.3)

(2.4)

（2.5）

其中，a,b和f分别代表源图像A,B和融合图像F中的像素灰度值；，和表示A,B和融合图像F中的概率密度函数，可由图像灰度直方图估计得到；表示源图像A,B和融合图像F的联合概率密度函数，这可以通过归一化的联合灰色直方图来估计。

4.结构相似性（SSIM）[59]

结构相似性主要是根据人类的视觉特征，亮度，对比度和结构来评估两个图像的相似性。值越高，两个图像越相似。结构上的相似性定义如下：

（2.6）

其中，A代表标准参考图像，F代表公式（1.6）中的融合图像。SSIM由三个部分组成，从左到右分别表示亮度的相似性，对比度的相似性和相似性。分别显示A和F的平均值，而不是A和F的标准偏差，A和F的标准偏差表明A和F之间的协方差；并分别显示亮度，对比度和结构这三个部分的比例参数而不是常数值，因此，原始A，B和f融合图像之间的相似度SSIM（A，B，F）可以表示如下：。

(2.7)

5.通用图像质量指数（UIQI）[60，61]

典型的龋齿图像质量评估始于人眼的视觉特征，并评估两个图像之间在相关性，亮度和对比度方面的差异。它是通用的，因为它可以更好地反映图像之间的相似性。值越高，两个图像之间的相似度越高。通用质量评估（UIQI）的定义如下：

（2.8）

其中，A表示源图像，F表示融合图像，表示A和F间的协方差，分别表示A和F间的标准差。因此，源图像A，B和融合图像F的相似程度可表示如下【62】

(2.9)

6.加权融合质量指数（WFQI）[62]

加权融合质量会标组用于测量从每个原始图像传输到融合图像的重要信息的数量。值越高，从源图像AuntZhu合并的图像中的信息越重要。加权融合质量指数（WFQI）定义为：

（2.10）

其中，A和B表示源图像，F表示融合图像，表示源图像在窗口w内的某种显著特征，表示源图像A相对于B在窗口w内的某种显著特征。

7.边缘相关融合质量指数（EFQI）[61]

边缘融合质量指数主要根据人类对边缘信息的视觉敏感性来评估融合质量。边缘融合质量指数（EFQI）定义如下：

(2.11)

其中，A，B代表原始图像，F代表融合图像，代表与A，B，F相对应的边缘图像，并代表边缘图像对原始图像的贡献。值越高，越多。边缘图像的参与

8.边缘保持度融合质量指标【61】

边缘保存融合质量指数主要通过测量传输到融合图像的原始图像中的边缘信息量来评估融合图像的质量。边缘保持度融合质量指标的定义如下：

(2.12)

其中，M和N是图像尺寸，其他参数分别是融合图像相对于原始图像A和B的边缘保持值，并且是边缘强度的函数。表示融合图像相对于原始图像A和B的总体数据保留，融合图像存储的原始图像的边缘信息越大，融合图像的效率越高。融合算法

根据研究人员的长期实验和经验[44,63,64]，图像互信息MI和边缘保留的结合使用可以客观，准确地评估融合图像的质量。，广泛用于评估。融合图像的质量。而且，在大多数情况下，这些常用的指示器可以准确评估融合图像的质量。为了更准确地评估融合图像的质量，在实际应用中，研究人员采用了评估策略，以补充其主观位置和客观性。

2.4 基于卷积神经网络的多聚焦图像融合方法

2.4.1 PCNN模型

PCNN是Eckhorn R [65]基于哺乳动物（如猫和猴子）皮层中的同步脉冲和发射现象而提出的新型生物神经网络。它具有出色的视觉神经网络特性，例如由动态脉冲激发，时间和空间总和以及非线性调制引起的振动和振荡，这与系统的生物学原理是一致的。因此，PCNN被广泛用于计算机视觉和图像处理等领域。 PCNN的同步脉冲和全局耦合特性允许通过点燃存在的PCNN神经元产生的输出继续扩散并扩散到其他神经元。因此，第一个点火神经元被创建为一个波动中心，其中包含图像的重要局部信息并贯穿其中。所有图像，自动波动此功能在表征多焦点图像的焦点区域时非常有用。在1999年，Broussard RP等人。 [66]在目标识别研究中首次将PCNN用于图像融合。这不仅提高了准确性，而且还有助于研究PCNN用于图像的可能性。在以前的算法中，基于PCNN点火次数确定多焦点图像的焦点区域特征。

（1）PCNN神经元模型

在1990年，Eckhorn R提出了一个简化的神经元模型来显示脉冲发射现象，但是从图像处理的角度来看，神经元模型有一定的局限性和缺陷，其非线性特性对于网络的数学分析没有用处。。特征。对于基于多个参数且具有更高复杂度的基于空间接近度的相似亮度的像素簇的生成机制，尚无明确的数学描述。许多神经元模型参数需要设置且难以调整，这极大地影响了使用PCNN模型的效率。研究人员还提出了一种简化的模型，可以简化和改进模型[67]并产生更好的结果。

在图2-6中，一个简单的PCNN神经元模型将外源刺激直接输入到神经元中，从而保留了原始模型的某些优越功能，从而减少了模型参数并提供了泄漏聚集器。开放域流您将看到它已被删除。它还促进了视觉信息的处理。参数模型的迭代表示为：

（2.13）

（2.14）

（2.15）

（2.16）

（2.17）

在PCNN神经元模型中，如果U>刺激神经元产生脉冲输出，并且反馈会迅速增加动态极限;如果U <脉冲发生器关闭并且脉冲停止。动态阈值随着n次迭代次数的增加而呈指数衰减，如果U>，神经元会再次激发以产生脉冲输出。迭代过程是PCNN的基本工作原理。

PCNN是由多个PCNN神经元的互连结构组成的单层二维神经元阵列。随着迭代次数n的增加，链接权重矩阵W从单个或多个神经元向相邻的神经元发送脉冲信号并调整大小。神经元通道F和L的信号变化会预先增加相邻神经元的内部活动项目U。如果U>，则神经元激发以产生脉冲输出。因此，PCNN可以自动发送和合并信息，并且此功能有助于图像信息的融合。

当PCNN处理图像时，通常假定网络中的PCNN神经元与面对面的图像像素对齐，并且数目相同。神经元是单个神经元及其邻居的连接权重矩阵，它们位于矩阵的中间。在权重矩阵中，图2-8显示了相邻神经元之间的连接，图2-8（a）显示了4域连接，图2-8（b）显示了8个神经元。相邻神经元之间的欧几里得距离与重量的相邻倒数，神经元之间的联系可以表示为：

(2.18)

（a）4邻域链接（b）8邻域链接

图2-8 PCNN神经元链接

在图像处理过程中，PCNN使用像素灰度作为PCNN神经元的外部输入，并且连接强度的大小与像素灰度无关。但是，随着连接强度的增加，神经元捕获的像素亮度范围会变大，并且发射神经元的数量也会增加。校正链接强度和L通道的参数后，具有相似亮度强度的像素更容易捕获关联的神经元。图像中像素的位置、亮度和强度越接近，其对应的神经元越容易同时点火，这使得PCNN具有全局耦合同步脉冲的特性。但是该方法较好地保留了源图像的边缘和纹理信息，却引入了“块效应”，降低了融合对比度。

2.4.2 Siamese Network

暹罗语有点像中文。暹罗语（Siam）是古老的泰语名称，中文被翻译为暹罗语。暹罗语也是“暹罗语”或“泰国语”人。暹罗语在英语中是“ twin”和“ union”的意思。暹罗网络是一种特殊的神经网络，是最简单，最常用的单次学习算法之一。简而言之，暹罗网络是“耦合神经网络”，而“耦合”神经网络是通过共享权重实现的，如下图2-9所示。它也可以表示为：

（2.19）

Siam网络的输入是对（X1，X2），它们的二进制标记Y∈（0,1）指示输入对是实对（相同）还是非对（不同）。表明。从下表中可以看到，我们将语句作为对使用，Label指示语句对是（1）还是错误（0）。如表2-2所示。

图2-9暹罗网络图

表2-2

如果实现代码，则它可以在同一网络上。由于所有权重都相同，因此，不需要单独的网络。对于Siam网络，双方都可以是lstm或cnn。简而言之，可以测量两个输入的相似程度。双神经网络具有两个输入（输入1和输入2），将两个输入都馈送到两个神经网络（网络1和网络2），两个神经网络分别映射其输入。用新的空格并创建新的空格输入。.通过损失计算评估两个输入之间的相似性。 Yakura同志在NIPS1993中称其为“使用“假的”延时神经网络进行签名验证”，以验证支票的签名与银行预订的签名相匹配。我发表了一篇论文。随着诸如SVM之类的算法的兴起，人们已经忘记了神经网络，但是一些研究人员正在努力工作。在2010年，Hinton在他的脸上发表了一篇有关ICML的文章，“整流线性单元改善了受限的玻尔兹曼机”。确认。效果非常好。你看起来好美。原理很简单。它对两个面孔进行卷积，然后将它们馈入具有相同或不同输出的神经网络。双神经网络用于处理两个输入“相似”的情况。伪双神经网络适用于处理两个输入为“特定差异”的情况。例如，如果要计算两个句子或词汇之间的语义相似度，最好使用连体网络。如果要检查标题和文本描述是否一致（标题和文本长度有很大不同），或者文本是否描述图像（一个图像，一个文本），则需要使用伪暹罗网络。换句话说，需要根据特定的应用程序来决定使用哪种结构和使用哪种损耗。假设CNN模型的两个输入具有相似的局部结构。在多聚焦图像融合中，这种假设总是有效的。有的采用基于局部相似性的融合策略来确定分解后的融合模式系数，特别是在源图像内容具有高度相似性时，采用加权平均的融合方式，避免了有用信息的丢失。在这种情况下，CNN得到的权重比基于系数的度量更可靠，因此它们被用作合并权重。在图像内容相似度较低的情况下，采用取大融合模式可以最大限度地保留源图像的显著细节。但目前采用的此网络进行多聚焦图像融合耗时比较久。

2.5本章小结

本章概述了多焦点图像融合。首先，我将介绍多焦点图像融合的层次划分。它可以分为三个主要级别：像素级别，功能级别和决策级别。接下来是传统的多焦点图像融合。执行聚焦图像融合算法。引言主要包括空间域和变换域中的算法。最后，将介绍当前在多焦点图像融合中使用的更广泛的神经网络模型，以分析它们的优缺点。包起来。

3.数据集

3.1图像融合过程、典型数据集及标注

图3-1图像融合流程

图3-1所示的图像融合流程可以看出，数据集作为整个信息融合的第一步更是至关重要的一步，直接关系和决定了融合算法的可行性以及融合图像的高质量性，可以说直接影响整个信息融合的结果，因此，下面给大家介绍了关于数据集的相关内容。

针对一个实际应用的机器学习问题，首先要采集一定数量的相关数据，且必须保证这些数据与部署应用中是相同或者相似的。由于卷积神经网络涉及的参数很多（如LetNet约有12万个参数），因此训练所需数据较大，尤其是从头训练模型，所得模型很容易过拟合。对于生产、安防、销售等应用场合、既可在线记录多张图像、还可以利用网络自动爬取一定数量的图像。例如，Microsoft的Bing提供了API帮助用户通过一定的协议检索批量下载图像。此外，很多学术研究机构也发布了不同计算机视觉任务的数据集，使得各个研究方向有了方法比较的基准。

3.1.1典型数据集

（1）ImageNet

ImageNet是按WordNet的层次结构组织的图像数据集的集合.WordNet是由普林斯顿大学的认知科学实验室在心理学教授George A.Miller的指导下建立和维护的英语词典，每个词典的同义词是：ImageNet synset图像中的每个概念图像均已通过质量控制。以及人工贴标

（2）西法100

CIFAR-100是CIFAR-10系列的扩展，图像尺寸也为32 * 32像素，但难度会增加，共有100种图像类型，每种图像有600张图像，100个类别分为20个类别，每个类别极好的。带标签的图像（主要类别）和粗糙标志（类别）。主要类别是常见的场景，例如鱼，花，昆虫，户外场景，水果和蔬菜。图像格式有三种版本：Python，MATLAB和Binary。

（3）PASCAL挥发性有机化合物

PASCAL VOC的全名是模式分析统计建模，计算和学习视觉对象类，它源自2005-2001 PASCAL VOC挑战赛，是公认的目标检测技术基准之一。数据包含20类，包括人，动物（例如猫，狗，鸟等），车辆（例如汽车，船，飞机等）和家具。（例如椅子，桌子，沙发等）。（4）MS COCO

MS COCO是由Microsoft赞助的一个集目标检测、分割、人体关键点监测、场景检测超像素分割和字幕生成等任务于一体的大型数据集，COCO的数据含有91个类别，如人、自行车、公共汽车、飞机、停车标识、鸟、背包等，共有超过250万个目标标注。

（5）BSDS500

BSDS500是美国加州大学伯克利分销就算及视觉组提供的用于图像分割和物体边缘检测的数据集，包含200张训练图像、100张验证图像以及200张测试图像，图像的标注分别为分割标注和边缘标注。

3.1.2数据标注

目前落地的大多计算机视觉应用属于监督学习范畴，需要大量数据和准确的标签，这就离不开人工标注。标注是建立数据集的基础性工作，以上介绍的著名数据集都经过了大量的人工标志和复核，根据任务的不同，数据标注可以区分如下几种。

（1）分类标注

从封闭的类别标签集合中选择图相对应的属性，标签为整型或编码数字。一张图像可以很多分类属性，如人脸可以有承认、儿童、男人、女人、长发、短发等属性。

（2）标框标注

在目标检测任务中框选要监测的目标，标签是标注框左上角坐标（x,y）、宽度w、高度h和对象的类别c组成的数组用于人脸识别、行人识别、车辆检测等。有些特殊的任务还需要给出为题的角度，是标注框和物体更加契合。

（3）区域标注

用于场景分割和实例分割，相比于标框标注，要求更加准确地选出柔性区域并给出其类别，如自动驾驶中的道路识别和地理图像中的地物分割等，一般用区域各项点围成的多边形表示。

（4）锚点标注

一些对于特征要求细致的应用中常常将关键点单独标注出来，如人脸关键点监测、人体姿态估计等。

注意，虽然大量额人工标注能够带来深度学习模型预测能力的大幅提升，但成本非常昂贵，而且存在标注错误和噪声的问题。近年来，无监督、自监督和弱监督的训练方法不断取得进展，未来有望取代部分人工，实现图像、视频的自动标注。

3.2数据预处理

数据质量与规模决定了神经网络能达到的上线，在实际应用中初步获得的数据集常常会遇到数据缺失、数据噪声、不一致性、冗余、类别不均衡、离散点等不理想情况，因此需要提高数据的可用性。在完成了数据采集和标注后，要进行数据预处理，有助于图稿数据质量，改善数据集分布，加速模型的训练。下面介绍数据预处理的常见方法。

3.2.1数据清洗

数据清洗是指对数据进行重新审查和校验的过程，以减少错误、去除噪声野点、删除冗余和查缺补漏。该过程大多由人工完成，通常耗时占训练总时间的一半以上。

在数据清洗的过程中，先要对数据进行总体的检查包括类别、标注形式、其他属性、数据来源等信息，并抽取一部分图像人工阅览，对研究对象本身一个直观的了解，若所做任务对图像要求较高，需要一一核对，对于那些噪声较多、模糊、有遮挡、质量较低的图像、可能会直接影响卷积神经网络的性能，此时可以直接将它丢弃。

数据缺失是比较常见的一类数据问题，图像数据集的缺失值一般在属性和标注上。对于专业性不强的数据，结合可视化手段（如一些标注软件），可用经验知识推测填充缺失值。若无法判断，且该属性确实数量不多，则可直接丢弃。

格式错误是另一类比较容易发现的问题，如在数据型的属性中出现了字符型标注，类别出现了不在集合范围内的值，标注框超出图像范围等类似的错误可以通过编写脚本，利用正则条件查找出来，并按数据缺失的方法进行处理。

数据重复和异常数据可能会影响模型的结果，检查重复数据同样需要编写脚本。而对于异常数据，由于图像高维数据，可以先进行特征提取，再用聚类分级将离群点检测出来并丢弃。

3.2.2数据采样

对于与分类相关的问题，训练样本的数量可能因类别而异，并且通常对学习成果影响很小。但是，如果差异较大，则会出现类别不平衡的问题。仅考虑两种分类，算法预测的结果是伪造的证书案例，伪造的折扣，真实的案例和真实的折扣。在训练原始损失函数时，分类器倾向于预测更多新的样本类别。 ..成本敏感型学习可以用来解决类别不平衡的问题。常用的策略是设计偏差损失函数以限制假负比率到假阳性比率。

采样是从特定概率分布中提取采样点的过程。采样是处理一组不平衡样本的最简单方法。它可以分为过采样，过采样和较低的随机采样。随机过采样是随机的，重复的，并将其替换为少数样本集中的样本，以使数字接近大多数类别。但是，与此同时，它破坏了数据的相同独立分布特性，并且很容易过度推理。在这方面，人们提出了一种改进的采样算法。例如SMOTE算法，针对每个少数样本，从最近的K最近邻居中随机选择样本，然后在两者之间的线上添加新的点组合。随机选择少数。样本。但是，SMOTE算法没有考虑多数样本在少数样本周围的分布，这可能导致过度概括。 Borderline-SMOTE算法通过在最近的邻居样本集中选择超过少数类别的样本以形成“危险集”（代表少数样本的边界），并在边界附近人为地创建少数样本，从而改善了这一点。合成。

随机欠采样是通过从大多数类别的样本集中随机选择少量样本来平衡类别数量的方法，但这种方法会丢失一些有用的信息，并且容易出现拟合不足的情况。为了克服这个问题并提高数据分类中不平衡的算法的性能，人们使用集成学习的思想来提出诸如Easy Ensemble和Balance Cascade之类的算法。其中，EasyEnsemble算法首先从多数类中随机采样并替换N次，每次选择接近少数类的多个样本以获取N个样本集，然后选择每个子集。与少模型一起练习。建模并最终组合这N个模型。形成一个集成的学习系统。 BalanceCascade算法在每轮训练中都使用具有相同数量的多数和少数派类别的训练集。使用训练控制阈值控制误报率将删除所有正确确定的类，并删除以下各项：输入迭代并最终获得级联分类。

3.2.3数据标准化

一般来说，深度学习中还需要对图像和标注进行标准化操作。数据标准化主要是指去掉量钢的区别，将数据范围限制在合理区间范围内，以方便处理。一般数据标准化的方法有以下几种。

（1）min-max标准化

其中，分别为样本数据的最大值、最小值、需要事先确定。如果想将数据映射到[-1-1]区间上，则需要再进行缩放，即：

（3.1）

如果数据是平稳的，即数据每个维度的统计都服从相同分布可以考虑在每个样本上减去数据的统计平均值。自然图像数据具有平稳性，可进行逐样本均值消减，也称为滞留分量移除。

（2）Z-SCOTR标准化

其转换函数为：

（3.2）

其中，分别为样本数据的平均值和标准偏差。 Z-SCORE标准化适用于属性的最大值和最小值未知或转换后很难知道的情况，可以使用标准的高斯分布来估计原始数据的分布。

以上两种是线性变换，并且转换后散射的性质保持不变。在分类和聚类等任务中，通常使用距离来度量相似性，或者使用PCA来缩小尺寸。现在，Z-SCORE标准化工作得更好。当距离变量计算协方差并且数据不符合高斯分布时，这是无关紧要的，可以使用最小，最大标准化方法。当数据属性呈现非均匀分布时，可采用以下3种非线性标准化方法。

（3）log函数标准化

针对正数，其转换函数为：

（3.3）

（4）反正切函数标准化

其转换函数为：

（3.4）

（1）Logistic/Softmax函数标准化

Logistic函数可将任意数值对称地映射到0-1区间上，即：

（3.5）

Softmax函数可将数组中所有数值映射到0-1区间上，即：

（3.6）

3.2.4数据集划分

只要模型足够复杂，很多时候就不难得到训练误差小的卷积神经网络模型，但这并不是最终目的。人们希望的是学习到样本中的潜在规律，以便能够获得在新样本上表现好的泛化能力强的模型。为了评价所学出来的模型的好坏，需要用测试集T来评判模型在新样本的能力，这就要在数据集中分出一部分样本专门用于测试。常用的数据集划分方法有留出法、自助法和交叉验证法3种。

此外，在深度学习模型中往往都有超参数而需要调参，为了选择最优参数，还要在训练集S中分出一部分数据作为验证集。将选定参数的模型在验证集上评估性能，最后选择性能最好的一组参数，在测试集T上测试泛化能力。

3.3数据增广

数据增广又称数据增强，是深度学习中一种常用的技巧。由于现实条件的限制，采集的图像有时数量严重不足，或无法涵盖所有的情况，难以满足深度学习的要求，因此需要通过增广的手段来扩充数量，以便减轻模型过拟合。常用的图像数据增广方法有几何变换、颜色变换、图像降质等。下面简要的介绍几种常用的增广技术基本原理。

3.3.1几何变换

设源图像像素坐标为（x,y），几何变换后的坐标为（u,v）则几何变换的齐次形式可写为：

（3.7）

其中，H为3*3坐标变换矩阵，不同形式代表不同的图像几何变换类型。

（1）图像翻转

图像翻转的基本操作分为水平翻转和垂直翻转，设图像的宽、高分别为W何H，水平翻转的变换矩阵为：

（3.8）

除了对横坐标同比例翻转，其余进行恒等变换。同理，垂直翻转的变换矩阵为：

（3.9）

针对左右或上下可能对称的场景常常做翻转，如人脸检测可以水平翻转，航拍图像可以同时水平翻转和垂直翻转。

（2）图像缩放

图像可以放大和缩小，以适应卷积神经网络输入设置的尺寸，缩放的变换矩阵为：

（3.10）

其中，分别为横、纵坐标的缩放系数，大于1对应放大，小于1对应缩小。

（3）图像平移

图像平移只涉及沿横坐标方向（或两者）移动图像，其变换矩阵为：

（3.11）

使用时，以图像长、宽乘以0-1区间上的随机比例构成数据增广。

（4）图像旋转

围绕原点旋转角度（以y轴正半轴为正方向）的变换矩阵为：

（3.12）

绕任一点的旋转可由平移和旋转组合操作，其变换矩阵为二者矩阵乘积。

（5）图像剪裁

图像剪裁是在原图像中长和宽的范围内连续地取出一部分作为新图像。剪裁通常与缩放、旋转、平移组合使用，可以先按随机比例缩放后再随机或平移至中心剪裁，或先随机剪裁一块区域后再缩放至规定尺寸，这样就会产生很多不同的训练样本。

3.3.2颜色变换

除了对图像的几何形状做变换，如果数据是彩色图像，还可以对图像的颜色空间做增广。图像颜色一般用RGB空间描述，但RGB颜色具有较强的相关性，很难独立控制。而HSV（色调Hue、饱和度Saturation、明度Value）空间对颜色的表示更加直观，相关性较小。

H通道的取值范围为[0,180），S通道好V通道的取值范围为[0,256），在HSV空间上可以对每个像素随机改变一定的比例，从而微调图像的颜色。

3.3.3图像降质

图像样本的质量有时会影响卷积神经网络的判断，说明此时卷积神经网络并未学习到图像的本质内容，一个好的模型应该对图像的降质具有一定的鲁棒性。为此，可以人工对图像随机降质，让卷积神经网络模型更好地充分学习到本质特征。图像降质的方法很多，下面简要介绍三种。

（1）增加噪音

神经网络可能会在训练过程中学习无用的高频属性，从而导致安装过度。噪声包含许多高频成分。在样本中添加适当强度的随机噪声将有助于网络学习更重要的特征。视觉噪音最常见的类型是较验和高斯等。

（2）y变化

y变换是所有像素的灰度幂函数f（x，y）的非线性映射，并获得输出的灰度级。当y> 1时，它将拉伸具有较低灰度级的区域。当y <1时，它将拉伸图像中较高的灰度区域并压缩灰度。

（3）花式PCA

花式PCA添加数据的方法是基于影响因子的颜色空间集合域中的随机干扰。对于图像，首先将RGB 3展平并执行关键成分分析以获得P1，P2，P3属性和属性，然后将平均值为0和方差为0.01的高斯噪声相加。然后将所有三个颜色分量添加到RGB图像中。

3.4数据集制作

由于多聚焦图像融合的特殊性，网络上没有类似 Image Net 这样针对于多聚焦图像融合的标准数据集，需要根据多聚焦图像的特点制作训练数据集。制作多聚焦图像数据集有三种方法，分别是滤波法方法，分别是滤波法[19]、[19]、指定区域采样法、指定区域采样法[57]和[57]和景深法和景深法[55]。[55]。这三种制作方法没有标准的制作流程，本文通过具体实验说明三种方法的适用场景以及优缺点。

3.4.1滤波法

滤波法制作数据集主要根据高斯滤波器的滤波特性得到模糊图像像素点的图像特征，可以手工制造模糊和清晰数据集，其核心思想是利用滤波器对数据集进行滤波来模拟多聚焦图像。图 3-2 为滤波法制作数据集原理图。

图3-2 滤波法原理图

文献【19】中利用滤波法，在ImageNet数据集基础上使用标准偏差为2，核为7*7的高斯滤波器进行五次滤波来模拟不同景深的多聚焦图像。在原始清晰图像中获取第一次滤波图像，使用相同滤波器在第一次滤波图像基础上获得第二次滤波图像，以此类推得到5次高斯滤波后的图像，通过这些不同清晰度的图像数据来模拟多聚焦图像融合任务中焦点不同的情况，此方法适用于像素分类CNN，如果使用端到端模型则需要使用另外两种办法。

3.4.2指定区域采样法

指定区域采样法和滤波法不同，该方法将原清晰度图像数据集通过滤波器模糊之后，在指定位置进行块提取以及分割，得到以该图像块为中心的模拟多聚焦图像。原理图如图3-3所示。

3.5 本章小结

本章针对网络训练所需的数据集进行了展开论述，首先通过图像融合过程图阐述了数据集以及数据预处理的重要性，以及介绍了典型的数据集级标注；其次，详细介绍了预处理数据集，并介绍了几种预处理方法以及各自的应用场景。最后对数据集制作的两种方法进行了介绍，并选定了其中一种作为本文数据集的制作方法。

4.基于RPCA的卷积神经网络多聚焦图像融合

4.1 RPCA算法

4.1.1鲁棒性主成分分析

为了结合多焦点图像的特性以增强融合过程，本文使用了鲁棒的PCA算法进行表征。主成分分析（PCA）可以有效地找到数据中最重要的元素和结构，消除噪声和冗余，并减小原始复杂数据的大小。最简单的主成分分析方法是PCA。从线性代数的角度来看，PCA的目标是用一组不同的基础重写获取的新数据空间。通过这套新的基础，可以揭示原始数据。 ..两者之间的关系是该维度最重要的“主要组成部分”。 PCA的目标是找到这样一个“主要组件”，以最大程度地提高冗余度和噪声干扰。像传统的PCA一样，健壮的PCA（鲁棒主成分分析）本质上是在低维空间中找到最佳数据投影的问题。当观测数据很大时，PCA不会产生理想的结果，而健壮的PCA可以从较大且稀疏的噪声污染观测数据中恢复低排名的数据。健壮的PCA会考虑这些问题。典型的数据矩阵D包含结构信息和噪声。然后将此矩阵分解为两个矩阵，并将它们相加。 D = A + E，A为低电平（因为内部存在一定量的结构信息，因此行或列线性相关），E稀疏（包括噪声，稀疏），鲁棒PCA为处理更多噪声。它不一定必须是高斯的。同时，存在依靠SVD查找特征向量的优化算法ALM，ADM，IT，APG，PCP，FCPP和PCA。

健壮的主成分分析主成分分析（PCA）是Karl Pearson等人提出的一种统计方法。它用于分析和简化许多领域的数据，例如数学建模，机器学习和图像压缩。将会被使用。正交变换使您可以将高维空间数据样本映射到低维空间。主要目的是通过减少线性维并消除冗余信息和数据来维护源数据集的显着特征。 [[35-37]。主成分分析模型可以表示为：

（4.8）

其中，M代表原始数据矩阵，L代表低秩矩阵，N代表高斯噪声。当数据集受到大噪声或严重异常值的干扰时，主成分分析的有效性会受到很大影响。 Candès等人解决了PCA鲁棒性差的问题。 [47]提出了稳健的主成分分析（RPCA）理论。基本思想是，数据矩阵可以表示为低排名矩阵和低排名矩阵。在最佳条件下对矩阵进行排名。稀疏矩阵的总和。假设您有一个输入矩阵，则可以按如下方式分解该矩阵：

（4.9）

其中，L是低秩矩阵，S是稀疏矩阵，输入矩阵I的大小为H*W。与其它稀疏表示方法类似，RPCA采用核规范作为近似稀疏约束：

（4.10）

其中，是矩阵阶数，是矩阵范数，是归一化参数的总和。

通常，此解决方案对于NP（非确定性多项式）是一个严重的问题，在最适合的算法中，矩阵秩等于非零特殊值的数量，因此使用矩阵核范数来估计矩阵运行，运行矩阵，估计矩阵的运行并设置固定值。这个范数是最公正的凸近似，在下面的凸优化问题中可以重印公式（4.10）。

(4.11)

其中，表示核范数，即矩阵的奇异值之和，表示矩阵的范数，即矩阵的所有元素的绝对值之和，本文用增广的拉格朗日乘子法【47.50】事先图像的RPCA分解。

4.1.2图像分解

在图像融合过程中，多分辨率分解方法往往会造成部分高频信息丢失，导致“振铃”现象出现。RPCA算法能够准确的分离多聚焦图像中的显著特征和背景信息，避免了高频信息的丢失。假设将图像用矩阵来表示，那么图像的高频信息体现在稀疏矩阵中，图像的背景信息体现在低秩矩阵中。将多聚焦源图像经RPCA处理后的结果表示为：

（4.12）

其中，表示低秩分量，表示稀疏分量，n=A,B表示多聚焦源图像A和源图像B。表示图像的RPCA分解，其中，lambda表示代价函数中稀疏误差项的权重，tol表示停止迭代时的最小误差，maxIter表示最大迭代次数。本文将lambda 设为,H为输入矩阵的行数，tol设为, max Iter 设为1000。（是否加分解图）

4.2卷积神经网络模型

我们需要根据原图像的一些像素的特征以及景深来对我们肉眼看到的清晰、细节部分进行提取并且完成信息融合，这才是多聚焦图像融合的核心任务。以此思路为基本路线，利用计算机视觉技术将多聚焦图像的图像特征信息分类并提取成为图像融合过程中最重要的步骤。针对所提取图像清晰特征，融合规则非常重要，设计正确合适的融合规则会直接影响到多聚焦图像融合结果。

本文的第2章介绍了当前用于多焦点图像融合的常见卷积神经网络算法。现有的PCNN技术主要基于单个像素或与多尺度转换相结合。基于单像素的技术与人眼的视觉特性不一致，并且与单像素亮度相比，人的视觉对边缘细节的变化更敏感。基于多尺度转换的PCNN方法由于存在大量系数而需要进行融合处理，并且在算法中消耗了相对大量的时间和空间。4.3本文融合方法

4.3.1 RPCA图像分解模型

RPCA将输入数据矩阵分解为低阶主成分矩阵和稀疏矩阵。分解时间受输入数据矩阵的矢量格式影响。

为了获得最佳的RPCA图像分解模型，对具有不同矢量格式的多焦点图像执行RPCA分解，并比较计算时间。执行时间还包括两个多焦点源图像的矢量格式转换时间和RPCA分解时间。假设要分解的多焦点图像是图像大小，则RPCA可以分解三种矢量格式。最终的稀疏矩阵应转换为与源图像相同的大小。若要直接在多焦点源图像上执行RPCA分解，必须将两个源图像分解两次，并且所得的稀疏矩阵同源图像的大小相同。最终的稀疏矩阵应转换为与源图像相同的大小。为了直接在多焦点源图像上执行RPCA分解，必须将两个源图像分解两次，并且稀疏矩阵的所得同源图像将具有相同的大小。因此，稀疏矩阵不需要向量变换。对于两个源图像，您需要将矢量格式转换为。 RPCA分解完成后，您需要将稀疏矩阵转换为。要使用RPCA直接分解两个源图像的复合数据矩阵，必须在同一源图像中将分解后的稀疏矩阵转换为两个大小相同的稀疏矩阵。比较实验中使用的多焦点图像为“时钟（512 * 512）”，“百事可乐（512 * 512）”和“实验室（640 * 480）”，如图4-1所示。

(a)Clock A (b)Clock B

(c)Pepsi A (d)Pepsi B

(e)Lab A (f)Lab B

图4-1 多聚焦源图像

图像名称	数据矩阵向量格式
图像名称	,	,	,
Clock	10.22.3	0.3856	1.0013
Pepsi	9.7475	0.3842	1.0311
Lab	21.1555	0.4623	1.1598

表4-1 不同向量格式的多聚焦图像RPCA分解时间对比

从表4-1可以看出，与数据矩阵矢量格式对应的多焦点图像的RPCA分解执行时间最短，而与数据矩阵矢量格式对应的多焦点图像的RPCA分解执行时间最短。我明白。最大执行时间。因此，在本文融合算法的RPCA分解中，多焦点图像转换后的数据矩阵向量采用这种格式。

RPCA图像分解模型对多焦点图像执行矢量格式转换以获得输入矩阵，并且对输入矩阵执行RPCA分解以获得低秩和稀疏矩阵，从而获得低秩矩阵。在其上执行向量转换。稀疏矩阵，用于获得与源图像大小匹配的低秩矩阵。秩矩阵和稀疏矩阵。 RPCA图像分解模型用于多焦点图像“时钟”。拆卸结果如图4-2所示。从图4-2中，我们可以看到稀疏矩阵突出区域的特征与焦点相对应。与源图像的区域功能一对一。多焦点图像融合确定焦点区域的特征，在源图像中找到并提取焦点区域，并合并提取的焦点区域以获得最终的融合图像。因此，可以将确定源图像的聚焦区域的特征和聚焦区域的位置的问题转换为确定RPCA源图像的稀疏矩阵的突出区域的特征的问题。这有助于确定多焦点图像的焦点区域的特征和位置。聚焦区域可用于改善融合图像的质量[155]

（a）源图像I （b）低秩矩阵A （c）稀疏矩阵E

图4-2效果图

4.3.2全卷机神经网络模型

本文所提出的网络模型，在经典的全卷机神经网络模型上进行了改进，模型采用了经典的Siamese网络结构的特征提取部分，并且巧妙地把此特征运用到了全卷积神经网络模型上，把全连接层替换成了全卷积层，因多聚焦图像在融合时不用提取深层次的图片信息，因此在采用3个卷积层和1个池化层提取信息后紧接着全卷积层，通过权重设置最后进行像素分类、防止样本偏移，最后通过反卷积恢复图像大小。相较于目前运用较为广泛的暹罗网络以及运用到多聚焦图像融合中的全卷积神经网络，本文的网络结构既保证了特征信息提取的完整性，又保障了整体融合效率的高效性。

图4-3 全卷积神经网络结构参数

由图4-3可以看出，本文网络所用的卷积核大小为3*3，步长为1；池化层核的大小为2*2，步长为2。实验表明，卷积核如果选择的过大，就会使得提取的像素点太多，导致分类的结果较差；如果卷积核选择的太小，又会使得提取的像素点太少，而无法进行下一步计算。池化的本质是数据压缩，一方面抑制响应较低的信号，降低噪声；另一方面减少需要学习的参数，降低网络规模，在空间上也实现了感受野的增大，有利于使用较小的卷积核实现更大尺度上的特征学习。

卷积层后使用的激活函数是ReLU（Rectified Linear Unit），该函数成为修正线性单元或线性整流函数，是一个分段函数，数学表达式为：

（4.13）

与Sigmoid和Tanh函数相比，ReLU函数具有以下优点：

ReLU函数的斜率在该点为1，如果x <0，则为0，从而克服了S型和tan函数消失的问题。

ReLU功能易于计算，可以节省大量时间。、

4.3.3融合过程

首先分析基于多聚焦图像融合的原理，通过RPCA对图像进行特征提取之后再利用卷积神经网络进一步得到特征以及决策图，根据决策图对图像进行融合，如图4-5所示。

（1）网络训练。根据具体的训练任务配置网络参数，具体有网络卷积层的输入与输出，选择哪一种损失函数、激活函数，以及网络的迭代次数、学习率等等。

（3）然后，用卷积层替换完全连接的层后，输入图像的大小可以不受限制，可以一次输入网络，并且图像所有位置的检测目标概率都可以得到功能图。如图4-4所示。

图4-4 全连接层转化全卷积层

（2）在本文算法中，网络对图像像素进行分类，输出焦点图，可以显示出图像的焦点区域和散焦区域白色代表散焦区域、黑色代表聚焦区域。从焦点图（图4-6）可以看出网络可以在视觉上显示源图像的聚焦信息，并且聚焦区域或者散焦区域具有突出的细节信息。得到最终决策图进行融合。

4.4实验与分析

4.4.1 实验设置

（1）软硬件配置

本文对全卷积神经网络训练的软件环境是：在Window7系统下，使用MATLAB2020b进行代码编写。64位操作系统、内存6G以及Inter(R)Core(TM)0I5-3210cpu@2.50GHz 。

（2）训练数据及制作以及网络参数配置

本文采用三组不同数据的图像作为初始数据及，采用指定区域采样法制作训练数据集，基础学习率为，每训练一次共四轮，每轮迭代次数393次，共1572次。

（3）客观评价指标及对比算法选择

在本文中，采用了三对来自“LytroDataset”数据集的多聚焦图像以及一对自拍图像。四组图像具有不同的特征分布，可以有效地表示该方法在不同情况下的有效性。

本文提出的融合方法将要和其他四种方法进行比较。这些方分别是基于离散小波变换（DWT）、非下采样剪切波变换（NSST）、非下采样轮廓变换（NSCT）、以及CNN。本文采用的客观评价指标有：信息熵（E）、互信息（MI）、结构相似度（SSIM）、基于人类视觉的度量、归一化的互信息、边缘保持度融合质量指标。通过以上指标对本文算法的有效性进行验证。

4.4.2实验结果与分析

（1）网络训练曲线

本文训练导出的训练曲线如图4-7所示，从图里可以看出当训练达到700次左右损失降到最低，并且在一定范围内浮动，当训练达到700次左右准确度达到最高并且在一定范围内浮动。

（a）

（b）

（2）主观分析

四对测试图像的融合结果分别显示在图4-8、4-9、4-10、4-11中。首先根据主观评价法针对不同图像进行融合评估。

（3）客观分析

为了进一步验证本文算法的优越性，E、MI、SSIM、、、，几项指标进行验证，几项指标的性质在本文第二章已经进行了阐述，对于这些指标，指标的数值越大，说明融合的效果越好，细节信息保留的越多，算法的有效性越好。

表4-2列出了使用上述7个客观评价指标以及运算速度针对五种不同融合方法的评价结果，最佳值已经在表里用黑色粗体表示出来。从十堰结果可以看出，本文提出的算法在六个指标中都高于其余四种方法，说明了本文算法的优越性和有效性。

4.5本章小结

本章重点介绍基于RPCA和全卷积神经网络的多焦点图像融合算法。我们将首先介绍PCA算法的原理，然后介绍RPCA算法及其优点。网络结构全卷积神经网络模型对此模型进行了改进，并且RPCA与本文提出的全卷积神经网络模型相结合，形成了本文的融合算法。最后，通过5组照片和5种方法的对比实验验证了该建议。本文算法的优越性和有效性。

5.总结与展望

图像融合技术最为目前信息融合技术当中的一个重要分支，在各个领域都有着不可或缺的重要的应用价值，其原理是把很多幅我们所需要的图像的一些重要的信息融合到一起的技术。本文主要针对RPAV算法与全卷机神经网络相结合融合算法的改进，把两者各自的优势很好地结合到一起，达到了提升融合质量以及运算速度的目的。现将论文的主要工作内容总结如下：

(1) 本论文针对图像融合的研究背景及意义进行了阐述，说明了图像融合的研究发展史。展开说明多聚焦图像融合的研究现状，并罗列了多聚焦融合的传统方法举例和深度学习方法举例。

(2) 本文为了得到更好的融合结果，针对图像数据以及图像预处理进行了深入研究。本文首先对图像融合过程进行了分析，然后因为数据预处理的部分对融合结果影响较大，说明预处理在图像融合任务中的必要性；因此详细介绍了数据预处理的方法以及应用场景，然后总结了两种数据集制作方法，分析其适用场合和优缺点，确定本文实验方案使用指定区域采样法制作数据集，该数据集能很好地适应基于决策图的卷积神经网络融合方法；最后将图像配准和图像去噪引入到数据集预处理中，增强数据集图像质量，提高图像融合结果质量。

（3）本文为了解决基于卷积神经网络的多聚焦图像融合中出现的细节信息丢失问题，对全卷积神经网络结构进行了改进，并且将传统算法RPCA与之相结合，利用RPCA 算法良好的特征提取的功能，在网络结构就可以保留细节信息额基础上上又加了一层保护伞。模型采用了经典的Siamese网络结构的特征提取部分，并且巧妙地把此特征运用到了全卷积神经网络模型上，把全连接层替换成了全卷积层，因多聚焦图像在融合时不用提取深层次的图片信息，因此在采用3个卷积层和1个池化层提取信息后紧接着全卷积层，通过权重设置最后进行像素分类、防止样本偏移，最后通过反卷积恢复图像大小，最后得出的结果主观上效果清晰，六个客观指标上也优于其他算法。

5.2未来展望

作为多源图像融合的重要领域，多焦点图像融合在机器视觉，仓储物流，医疗诊断和军事安全中具有非常重要的应用价值。由于缺乏完整的理论框架和理论体系，以及融合问题本身的复杂性，经过研究人员近20年的研究，多焦点图像融合及相关技术取得了一定的发现。 ..此外，作者的工作仍在这一领域。多焦点图像融合仍然需要大量详细的理论和应用研究。首先要考虑的方面包括以下几个方面：

（1）基于动态场景的多焦点图像融合算法研究

当前，大多数图像融合算法都是基于静态场景中的图像设计的，但是关于动态场景中图像融合的研究很少。这些传统的融合方法为包括静态场景在内的多焦点图像提供了令人满意的融合结果。但是，动态场景图像序列不符合严格的配准要求，因此图像中相同位置的内容将有所不同。因此，具有动态场景的多焦点图像融合必须首先解决场景对象提取和场景配准问题。

（2）强噪声环境下的多焦点图像融合算法研究

在现实世界的工程应用中，由于外部环境和传感器设备的影响，传输和收集的源图像通常包含噪声。大多数传统的融合算法都是基于没有噪声源的图像设计的，关于强噪声图像融合的研究很少。强烈的外部噪声会干扰源图像的焦点区域特性的确定，从而影响融合算法的性能并降低融合图像的质量。因此，如何有效抑制外界噪声并提高融合性能是在强噪声环境下多焦点图像融合算法研究的方向。

（3）主观评价与客观评价相结合的综合质量评价体系的研究

当前，图像的主观和客观评价是图像融合研究领域中的研究热点。客观指标从各个角度定量评估融合图像的质量。它对于评估各种融合算法的性能具有重要的参考重要性。但是，这不可避免地超出了人们的视野，并且该问题尚未完全解决。研究人员提出的各种评估指标

缺乏统一的理由。因此，为了客观地评价融合算法，构建融合基于人眼的主观评价和客观评价的融合图像质量评价系统非常重要。

（4）结合各领域新理论的多焦点图像融合算法研究

多焦点图像融合方法包括各种学科的知识，其中不断开发诸如新的压缩感测理论，低秩矩阵重构理论和形态学成分分析等若干新学科。它已经出现了。如何将这些新理论引入图像融合，如何建立更合理的融合规则，如何将这些新理论结合以研究图像融合算法以及如何解决图像融合问题

集成中的实际问题值得进一步研究。简而言之，该书仅研究和讨论了空间域中多焦点图像的像素级融合算法中的一些问题，并取得了一些研究成果，但该研究成果的应用得到了进一步的发展。将要研究和改进的未来。

致谢

还记得刚入学的时候，在同学们都找到导师的情况下我即将面临着跨专业选导师的情况，但是刘老师仍然为我争取到了一个名额，给了我这份入学的资格；三年后，我已经做好了迎接新生活的准备。

在这期间，我在昆明理工大学学到了太多知识，学习上我认真完成了本专业所有课程，并且在自己课题方向进行了深入的研究，收获颇丰在即将分别之际，我由衷地对所有帮助过我的老师同学表示最衷心的感谢。在学习期间，我的导师刘增力教授给予了我重要的帮助。刘老师从刚开始就教导我们要认真对待自己的课程和课题，把思想摆正才能真正的做出学问。我一直以这句话作为我的行动导向来对待自己的任务。刘老师在每次重要的会议上为我们答疑解惑，解答在学习生活种遇到的难题，事无巨细。当我在实验上遇到难题，老师知道了会主动联系我，帮助我解决；当我生活山遇到难题，老师也会主动开导我，跟我讲解人生的道理，让我重拾信心。

最后，要感谢我的家人，是他们把我培养成现在的样子，是父母默默无闻的付出才成就了现在的我，我想我会在未来的日子里继续努力，用我的青春换回我无悔的明天。

参考文献

[1] Mitchell H B.Data fusion: concept and ideas[M].Berlin Heidelberg: Springer,2012.

[2] Cui M S. Genetic Algorithms Based Feature Selection and Decision Fusion for Robust Remote Sensing Image Analysis [M]. Proquest, UMI Dissertation Publishing,BiblioBazaar,2012.

[3] Ahmed Abdelgawad, Magdy Bayoumi. Resource-aware date fusion algorithms for wireless sensor networks [M] .Ney York:Springer,2012.

[4] Erkanli Stertan. Fusion of visual and thermal images using genetic algorithms [D].PhD Thesis,Old Dominion University,2011.

[5] Xu M,Image registration and image fusion: algorithms and performance bounds [D].PhD Thesis,Syracuse University,2011.

[6] Wan T, Zhu C, Qin z. Multifocus image fusion based on robust principal component analysis[J]. Pattern Recognition Letters,2013,34(9):1001-1008.

[7] Isha Mehra, Naveen K Nishchal.Image fusion using wavelet transform and its application to asymmentric cryptosystem and hiding[J].Optics Express,2014,22(5):5474-5482.

[8] Hong R, Wang C, Ge Y, et al.Salience preserving multi-focus image fusion [C].Multimedia. And Expo,2007 IEEE International Conference on. IEEE,2007:1663-1666.

[9] Smith M I,Heather J P. A review of image fusion technology in 2005 [C]. Defense and security. International Society for Optics and Photonics,2005:29-45

[10] Ardeshir Goshtasby A,Nikolov S. Image fusion: advances in the state of the art [j].Information Fusion, 2007,8(2):114-118..

[11] Anjali Malviya,Bhirud S G. Image fusion of digital image[J]. International Journal of Recent Trends in Engineering,2009,2(3):146-148.

[12] Bai X, Zhou F,Xue B, Edge preserved image fusion based on multiscale toggle contrast operator [J]. Image and Vision Computing,2011,29(12):829-839.

[13] Ketan Kotwal, Subhasis Chaudhuri. A novel approach to quantitative evaluation of hyperspectral image fusion techniques [J]. Information Fusion,2013,14(1):5-18.

[14] Bhatnagar G,Jonathan Wu Q M, Liu Z. Human visual system inspired multi-modal medical image fusion framework [J]. Expert System with Application,2013,40(5):1708-1720.

[15] Xu Z.Medical image fusion using multi-level local extrema [J].Information Fusion, 2014,19:

38-48.

[16] Zhao Y, Zhao Q,Hao A.Multimodal medical image fusion improved multi-channel PCNN [J]. Bio-Medical Materials And Engineering,2014,24 (1):221-228.

[17] Stathaki T .Image Fusion: Algorithms and Applications [M]. New York:Academic Press,2008.

[18] Bai X,Zhou F, Xue B. Fusion of infrared and visual image through region extraction by using mutli scal center-surround tophat transform[J].Optics Express,2011,19(9):8444-8457.

[19] Alex Pappachen James,Belur V Dasarath,medical image fusion:A survey of the state of the art [J].Information Fusion,2014,19:4-19.

[20] H Tang,B Xiao,W Li,et al.Pixel convolutional neural network for multi-focus image fusion[J]. Information Sciences,2017,443(3):125-141.

[21] M Amin-Naji,A Aghagolzadeh,M Ezoji,Ensemble of CNN for multi-focus image fusion[J].Information Fusion,2019,51:201-214.

[22] M Amin-Naji,A Aghagolzadeh,M Ezoji.CNNs hard voting for multi-focus image fusion[J]. Journal of Ambient Intelligence and Humanized Computing,2019:1-21.

[23] X Guo,R Nie,J Cao,et al,Fully CONVOLUTIONAL network-based multifocus Image Fusion[J]. Neural Computation,2018,3097）：1775-1800.

[24] 高雅允.金伟其.徐丽芳等.一种可实时话的多光谱图像融合系统[J].光学技术，1995，（04）：13-16.

[25] 刘兴党.图像融合及其临床应用[J].国外医学（放射医学核医学分册），1996（04）：13-15.

[26] 金红，刘榴娣.彩色空间变换法在图像融合中的应用[J].光学技术，1997，56(04):46-50.

[27] 蒋晓瑜，高雅允，周立伟，小波变换在多光谱图像融合中的应用[J].电子学报，1997,36（08）：105-108.

[28] Li H, Tang G F,Wu F X,et al.Pixel-level image fusing based on programmable GPU [J]. Applied Mechanics and Materials,2013,347:3872-3624.

[29] Li M J, Dong Y B,Wang X l.Research and Development of Non Multi-Scale to Pixel-level Image Fusion [J] Applied Mechanics and Materials,2013,448-453:3621-3624.

[30] Marcello J, Medina A, Eugenio F. Evaluation of Spatial and Spectral Effectiveness of Pixel-level Fusion Techniques [J].Geoscience and Remote Sensing Letters,IEEE 2013,10(3):432-436.

[31] Pong K H,,Lan K M. Multi-resolution feature fusion for face recognition [J]. Pattern Recognize,2014,47(2):556-567.

[32] Zhou Y, Zhou S T, Zhong Z Y,et al.A de-illumination scheme for face recognition based on fast decomposition and detail feature fusion [J]. Optics express,2013,21(9):11294-11308.

[33] Kalyankar N V,Al-Zuky A. Feature-level based image fusion of multisensory images[J]. International Journal of Software Engineering Research and Practices,2012,1(4):9-16.

[34] Ye Z, He M, Prasad S,et al A multiclassifier and decision fusion system for hyperspectral image classification [C]. Industrial Electronics and Application (ICIEA),2013,8th IEEE comference on.IEEE,2013:501-505.

[35] Ridout M. An improved threshold approximation for local vote decision fusion [J].Signal Processing,IEEE Transactions on,2013,61(5):1104-1106.

[36] Nanyam Y, Choudhary R, Gupta L,et al A decision-fusion strategy for fruit quality inspection using hyperspectral imaging[J].Biosystems Engineering,2012,111(1):118-125.

[37] 黄伟，像素级图像融和研究[D].上海：上海交通大学博士学位论文，2008.

[38] 孙巍。像素级多聚焦图像融合算法研究[D]。长春：吉林大学博士学位论文，2008.

[39] Multi-focus Image Sets:http://www.ece.lehigh.edu/spcrl.

[40] Image Sets:http://www.imgfsr.com.sitebuilder/images.

[41] 徐彤阳.基于混叠Contourlet变换的遥感图像融合研究[D].上海;上海大学博士学位论文，2011.

[42] Piella G. A general framework for multiresolution image fusion:form pixel to regions [J],Information Fusion,2003,4(4)259-280.

[43] 潘瑜，郑钰辉，孙权策，等.基于PCA和总变差模型的图像融合框架[J].计算机辅助设计与图形学学报，2011,23（7）：1200-1210.

[44] Li S, Kwok J T, Wang Y. Fusion images with multuole focuses using support vector machines [M]. Artificial Neural Networks-ICANN 2002.Berlin Heidelberg:Springer,2002:1287- 1292.

[45] Jiang Z, Han D, Chen J,et al. Awavelet based algorithm for multi-focus micro-image fusion [C].Image and Graphics,2004. Proceedings. Third International Conference on IEEE,2004):176-

179.

[46] Pajares G, Manuel de la Cruz J.A wavelet-based image fusion tutorial [J].Pattern Recognition,2004,37(9):1855-1872.

[47] Li Z H,Jing Z L, Liu G,et al Pixel visibility based multifocus image fusion [C].IEEE International Conference on Neural Neworks and Signal Processing,2003,3:1050-1053.

[48] Hariharan H.Extending Depth of Field via Multifocus Fusion [D].PhD Thesis.University of Tennessee,Knoxville,2011.

[49] 张勇，陈大建。区域图像融合算法在红外图像分析中的应用[J].光电技术应用.2011,26(3):17-20.

[50] Srinivasa Rao Dammavalam,Seetha Maddala,Krishna Prasad MHM.Quality assessment of pixel-level image fusion using fuzzy logic [J].International Journal on Soft Computing,2012,3(1):11-23.

[51] Li S,Yang B.Multifocus image fusion using region segmentation and spatial frequency [J].Image and VIsion Computing,2008,26(7):971-979.

[52] Garg S, Ushah Kiran K Mohan R, et al. Multilevel medical image fusion using segmented image by level set evolution with region competition[C].Engineering in Medicine and Biollogy Society,2005.IEEE-EMBS 2005,27^th Annual International Conference of the IEEE,2006:7680-7683

[53] Lee D H,L= Lee K M, Lee S U. Fusion of lidar and imagery for reliable building extraction[J].Photogrammetric Engineering and Remote Sensing,2008,74(2):215.

[54] Nishioka T, Shiga T, Shirato H,et al.image fusion between FDG-PET and MRI/CT for radiotherapy planning of oropharyngeal and nasopharyngeal carcinomas[J].International Journal of Radiation Oncology Biology Physics,2002,53(4):1051-1057.

[55] Runkler T A, Sturm M,Hellendoorn H Model based sensor fusion with fuzzy clustering[C]. Fuzzy System Proceedings,1998.IEEE World Congress on Computational Intelligence. The 1998 IEEE International Conference on IEEE,2014,2:1377-1212.

[56] 屈小波，闫敬文，杨贵德，改进拉普拉斯能量和尖锐频率局部化Contourlet域多聚焦图像融合方法[J].光学精密工程，2015,2（3）：169-176.

[57] 王保云。图像质量客观评价技术研究[D]。合肥：中共科学技术大学博士论文，2010.

[58] Li S, Kanf X, Hu J,et al.Image matting for fusion of multi-focus images in dynamic scenes[J].Information Fusion,2013,14(2):147-162.

[59] Wang Z,Bovik A C, Sheikh H R, et al .Image quality assessment:Form error visibility to structural similarity [J].IEEE Transactions on Image Processing,2004,13:600-612.

[60] Wang Z,Bovik A C,A universal image quality index[J].IEEE Signal Processing Letters,2002.9:81-84.

[61] Piella G,Heijmans H. A new quality metric for image fusion [C].Proceedings of International Conference on Image Processing,Barcelona,Catalonia,Spain,2003:173-176.

[62] Yang B,Li S,Pixel-level image fusion with simultaneous orthogonal matching pursuit[J].Information Fusion,2012,13:10-19.

[63] Nayar S K,Nakagawa Y.Shape from focus [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1994,1698）：824-831.

[64] Li H,Chai Y,Yin H,et al,Multifocus image fusion and denoising scheme based on homogeneity similarity [J],Opt,Commun,2012,285(2):91-100.

[65] Eckhorn R,Reitboeck H J,et al,Feature linking via synchronization among distributed assemblies:Siimulation of results from cat cortex[J].Neural Computation,2010,2:293-307.

[66] Broussard R P, Rogers S K,et al, Physiologically motivated image fusion for object detection using a pulse coupled neural network[J],IEEE Transaction Neural Network,1999,10:554-563.

[67] 刘勍。基于脉冲耦合神经网络的图像处理若干问题研究。[D]西安;西安电子科技大学博士论文，2011.

posted @ 2021-03-15 20:29 forever~ 阅读(670) 评论(0) 编辑收藏举报

刷新页面返回顶部

forever~

AI2

公告