图像超分辨率算法:CVPR2020
图像超分辨率算法:CVPR2020
Unpaired Image Super-Resolution using Pseudo-Supervision
论文地址:
摘要
在大多数基于学习的图像超分辨率(SR)研究中,成对训练数据集是通过使用预定操作(例如,双三次)缩小高分辨率(HR)图像的尺度来创建的。然而,这些方法并不能很好地解决现实世界中的低分辨率(LR)图像,其退化过程更为复杂和未知。在这篇文章中,提出了一种使用生成性对抗网络的非配对SR方法,该网络不需要成对/对齐的训练数据集。该网络由非配对核/噪声校正网络和伪配对随机共振网络组成。校正网络去除噪声,调整输入的LR图像的核,然后用SR网络对校正后的干净LR图像进行上标度。在训练阶段,校正网络还从输入的HR图像生成伪干净LR图像,然后由SR网络成对地学习从伪干净LR图像到输入的HR图像的映射。由于的SR网络独立于校正网络,因此可以将研究得很好的现有网络结构和像素级损耗函数与所提出的框架集成起来。在不同数据集上的实验表明,该方法优于现有的求解非配对随机共振问题的方法。
一. 概述
图像超分辨率(SR)是低分辨率(LR)观测重建高分辨率(HR)图像的基本不适定问题。近年来,基于深度学习的学习方法的研究取得了很大的进展,极大地提高了SR的学习效果,从实践的角度引起了人们的关注。然而,在许多研究中,训练图像对是通过对HR图像的预定降尺度操作(例如,双三次)生成的。这种数据集准备方法在现实场景中不实用,因为通常没有与给定LR图像对应的HR图像。
最近的一些研究提出了克服HR-LR图像对缺失的方法,如盲SR方法[39,12,57]和基于生成性对抗网络(GAN)的非配对SR方法[51,4,56,32]。盲SR算法的目的是从任意核退化的LR图像中重建HR图像。尽管最近的研究已经实现了对有限形式的退化(例如模糊)的“盲”,但真实的LR图像并不总是用这种退化来表示;因此,它们在由不期望的过程退化的图像上表现得很差。相比之下,基于GAN的非配对SR方法可以直接学习LR到HR图像的映射,而无需假设任何退化过程。GANs通过生成器和鉴别器之间的minimax博弈学习生成与目标域分布相同的图像[11,37]。基于GAN的非配对SR方法可以根据它们是从LR图像(直接方法;图2a)还是HR图像(间接方法;图2b)开始粗略分类。
直接接近
在这种方法中,生成器上标度源LR图像以愚弄HR鉴别器[51]。这种方法的主要缺点是像素级的损耗函数不能用来训练发电机,即SR网络。在成对SR方法中,重建图像和HR目标图像之间的像素损失不仅在面向失真的方法中起着关键作用,而且在面向感知的方法中也起着关键作用[28,2]。
间接法
在这种方法中,生成器将源HR图像缩小以愚弄LR鉴别器[4,32]。生成的LR图像然后用于成对地训练SR网络。这种方法的主要缺点是,生成的LR分布与真实LR分布之间的偏差会导致列车测试差异,降低测试时间性能。
二.本文方法与贡献
将整个网络分为一个未配对的核/噪声校正网络和一个伪配对的SR网络(图3)。校正网络是基于CycleGAN[58]的未配对LR↔ 清除LR平移。SR网络是成对的清除LR→HR映射,其中清除LR图像是通过使用预定操作缩小HR图像的尺度来创建的。在训练阶段,校正网络还通过首先将干净的LR图像映射到真实的LR域,然后将其拉回到干净的LR域来生成伪干净的LR图像。学习SR网络以成对的方式从伪干净的LR图像重建原始的HR图像。
该方法具有以下两个优点,取得了优于现有方法的效果:
(1)由于校正网络不仅训练生成的LR图像,而且通过双向结构训练真实的LR图像,生成的LR分布与真实LR分布之间的偏差不会严重降低测试时间性能。
(2) 任何现有的SR网络和像素损失函数都可以集成,因为SR网络是分开的,能够以成对的方式学习。
三.相关工作
训练数据、网络结构和目标函数是学习型深度网络的三个基本要素。配对图像SR是在理想训练数据存在的前提下,对网络结构和/或目标函数进行优化以提高性能。然而,在许多实际情况下,缺乏训练数据(即,对应于源LR图像的目标HR图像)。最近对盲图像和非配对图像SR的研究已经解决了这个问题。作为另一种方法,最近的一些工作[7,54,5]使用专用硬件和数据校正过程构建了真实的成对SR数据集,这是难以扩展的。
1. 成对图像超分辨率
在大多数SR研究中,配对训练数据集是通过使用预定操作(例如,双三次)缩小HR图像的尺度来创建的。自第一个基于卷积神经网络(CNN)的SR网络[9]以来,人们提出了各种SR网络来提高LR到HR的重建性能。早期的研究[20,30]发现一个更深的网络在残差学习中表现得更好。提出的残差信道注意网络(RCAN)[55]进一步提高了深度和性能。还研究了上尺度策略,如LapSRN的渐进上尺度[26]和DBPN的迭代上尺度和下尺度[13]。在这些研究中,一个简单的L1或L2距离被用作目标函数,但是知道这些简单的距离单独导致模糊的纹理。为了提高感知质量,SRGAN[28]引入了感知损失[18]和对抗性损失[11],实现了更令人满意的视觉效果。ESRGAN[44]是SRGAN的增强版本,是最先进的感知定向模型之一。
2. 盲图像超分辨率
尽管盲图像SR在实际应用中具有重要的意义,但它的研究却相对较少。对盲随机共振的研究通常集中在对模糊核盲的模型上[34,38,39,12,57]。例如,ZSSR[39]利用单个图像中信息的重复性来提升具有不同模糊核的图像,IKC[12]使用中间输出迭代地纠正模糊核的不匹配。关于盲随机共振的研究很少涉及模糊盲随机共振之外的组合退化问题(即附加噪声、压缩伪影等),而针对具体的退化问题提出了几种盲方法,如去噪[23]和运动去模糊[35,24]。
3. 未配对图像超分辨率
最近的一些工作在不使用成对训练数据集的情况下解决了SR问题。与CycleGAN[58]和DualGAN[49]等未配对的翻译方法不同,未配对的SR旨在保持风格和局部结构的同时,提高源LR图像的质量。Bulat等人 [4] 以及Lugmayr等人 [32]首先训练一个从高到低的退化网络,然后使用退化的输出训练一个从低到高的SR网络。袁等人 [51]提出了一种周期内网络来同时学习退化网络和SR网络。与的方法不同的是,Yuan等人的退化网络是确定性的,SR网络与双周期网络相结合;因此,可用损失函数是有限的。Zhao等人[56]还利用双向结构共同稳定退化网络和SR网络的训练。类似于袁等人,赵等人的SR网络。具有有限的自由度来选择损失函数。
四.实验测试
DIV2K真实野生数据集
使用了真实的野生集(轨道4)的NTIRE 2018超级分辨率挑战[42]。逼真的野生集是通过降解DIV2K[41]生成的,它由不同内容的2K分辨率图像组成。DIV2K有800张训练图片。真实野生集通过×4缩小、运动模糊、像素移动和噪声添加来模拟真实的“野生”LR图像。在单个图像中,下降操作是相同的,但因图像而异。为每个DIV2K训练图像生成四个下降的LR图像(即总共3200个LR训练图像)。使用上述3200 LR和800 HR配对图像训练模型,但使用“未配对/未对齐”采样。评估了100幅真实的野生验证图像的结果,因为没有提供测试图像的基本事实。
图4显示了所提出方法的中间图像的可视化示例。
与最新盲法的比较
由于多重退化的盲随机共振方法还没有得到充分的研究,将随机共振方法与盲恢复方法相结合作为基准(表1,图5)。首先探索了最新的盲去噪方法:基于补丁的方法NC[27]和基于CNN的方法RL restore[50]。RL恢复性能优于NC。然后,基于RL恢复的输出,比较了两种基于CNN的盲去模糊方法SRN-Deblur[40]和DeblurGANv2[25]。这些去模糊方法的性能几乎相当,但去模糊速度更快。最后,将三种最先进的SR方法与RL-restore和DeblurGAN-v2相结合:一种非盲SR方法DBPN[13]和两种盲SR方法ZSSR[39]和IKC[12]。进一步将ZSSR与最近提出的核估计方法KernelGAN[1]相结合。的方法在很大程度上优于上述所有方法;但是,由于所比较的方法没有在这里使用的数据集上进行训练,因此比较并不完全公平。
与NTIRE 2018基线的比较
表2显示了与验证网站3的NTIRE 2018基线的比较,其中使用的数据集和评估脚本与本文的实验相同。尽管2018年的NTIRE竞赛提供了成对的训练数据集,但以非配对的方式训练网络。
如表5所示,在失真度指标(PSNR,SSIM)和感知度指标(LPIPS[52];越低越好)上都取得了优异的成绩。
与最新方法的比较。在本小节(图9)中提供一个定性比较,因为没有基本真实的HR图像。输入的LR图像是从DOTA验证集中采样的,GSD在[55cm,65cm]范围内。作为基准,首先测试了基于CNN的盲去噪方法RL restore[50],因为输入的LR图像包含可见伪影。
表4显示了与相关最新方法的数值比较。使用Fr'echet起始距离(FID)[14]评估SR结果的质量,因为没有相应的地面真实图像。CycleGAN,Bulat等人的方法和本文的方法,都是基于GANbased的非配对方法,在很大程度上优于所有其他方法。
感知训练。
还根据ESRGAN[44]对模型进行了面向感知的重建损失训练,以证明本文方法的通用性。将公式7替换为知觉丧失、相对论性对抗性丧失[19]和内容丧失的组合,而其他丧失功能和训练程序不变。与L1重建损失训练的正常模型相比,感知训练模型给出了更令人满意的视觉效果(图6)。