MZSR：用于 Zero-Shot 超分辨率的元转换学习

这是今年CPVR2020 一篇关于超分辨率的论文。这篇文章的创新点在于它将零次学习（Zero-Shot Learning）和元转换学习（Meta Transfer Learning）进行结合，提出了新的超分算法 MZSR 。

ZSSR最早被提出，将图像内部学习用于图像超分辨率。它能够很好地学习图像内部的先验信息，从而利用这些内部信息恢复图像高频信息。由于 ZSSR 从一张图像中学习，因此需要几千次的梯度更新迭代，也就是说测试时推理时间很长。

而 MZSR则是通过元转换学习解决测试推理时间长的问题，MZSR 在测试时只需要一次梯度更新就可以取得可观的结果。

论文：https://arxiv.org/pdf/2002.12213.pdf
github: https://github.com/JWSoh/MZSR
在这里插入图片描述

1. 介绍

1.1 Single Image Super-Resolution

单幅图像超分，它是基于图像的退化模型：
在这里插入图片描述
其中 $I_{LR}^{k}$ 为LR图像，$I_{HR}$ 为HR图像，$k$ 为模糊核(blur kernel)，$s$为下采样的尺度因子，$n$为高斯白噪声。

在SISR（单幅图像超分）领域，大多数CNNs方法的缺点：

通过使用大量的外部样本数据进行监督学习，获得了显著的图像超分效果。然而对于一张特定的待超分图像而言，这些方法不能够很好地利用该图像的内部信息去进行超分。
它们的应用受限于监督学习中所使用的样本数据，例如在大多数CNNs方法的训练中，LR图像是通过对HR图像进行bicubic（双三次插值）得到的，则通过训练得到的网络只能对该类型的LR图像有很好的SR（超分）效果，在真实情况下未知的超分效果却不尽如人意，即没有很好的泛化能力。

1.2 Zero-Shot Super-Resolution

在这里插入图片描述
ZSSR是一种完全无监督或者说自监督的方法，用于学习图像特有的内部信息。对于任意测试图像 $I_{LR}$ 模型都会经过训练和测试，从而得到高分辨率图像。在训练时，首先将测试图像$I_{LR}$ 用期望的下采样核进行下采样，生成更小的低分辨率子图像 $I_{son}$ 。于是，$I_{LR}$ 也就成了$I_{son}$ 高分辨率的监督样本。然后，用单个图像生成的LR-HR对训练CNN网络。训练仅仅依赖测试图像，因此 CNN 网络能够学习到图像特有的内部信息。测试时，输入测试图像$I_{LR}$ ，CNN 模型就能够生成超分辨率图像 $I_{SR}$ 。虽然ZSSR能够SISR的两个问题，但它在超分过程中需要上千次的梯度更新（即需要很长的推断时间），而且ZSSR只使用了图像的内部信息（相似的结构、模式等），没有使用大量的外部数据信息。

1.3 Meta-Learning

Meta-Learning的目标是使网络能够在少量样本的情况下快速学习一个新的任务（如人可以在只观察几张图片的情况下认识一种新的动物）。meta-learning 分为 meta-training 和 meta-test 阶段，meta-training 使得模型能够适应大量不同的任务（各种不同的模糊核），meta-test使得模型在几次更新后就能适应一个新的任务（未知的特定核）。

因此本文在meta-learning和ZSSR的基础上提出了MZSR（基于元-迁移学习的零样本超分），MZSR首先通过大量的外部数据找到适合进行内部学习（Internal Learning）的通用初始参数，然后再进行ZSSR，即同时使用了外部和内部的信息。这样能够使得ZSSR只用一次梯度更新就能取得很好的超分结果，即该网络能够快速适应任一给定的图像条件。

2. 本文的方法

本文主要受到MAML(与模型无关的元学习，meta-learning)和ZSSR的启发，提出MZSR，其流程如下，主要分为三步：
在这里插入图片描述

大规模数据训练 Large-scale Training
这一阶段使用大规模图像数据集 DIV2K，并使用已知 Bicubic 降采样生成低分辨率图像组成成对的训练集$(I_{HR}, I^{bic}_{SR})$。网络采用 L1 Loss进行训练。
这样做的好处：
- 不同的超分任务间存在一些相似之处，使用外部数据先进行预训练可以使网络更容易学习。
- 降低了meta-training阶段的训练难度，使其更稳定。
元转换学习 Meta Transfer Learning
用meta-learning(元学习)的思想，用不同的任务（模糊核$(k)$不同，基于大量外部数据生成不同的LR-HR数据对）来学习任务层面的知识（task-level knowledge），此时得到模型参数（称这时网络权重为最优的初始状态，能够在meta-test阶段通过几次梯度更新，就可以快速地适应各种特定的任务）。
用大量不同模糊核k合成训练数据集$D_{meta}(I_{HR}，I_{LR}^{k})$，模糊核分布$p(k)$:

基于$D_{meta}$训练元训练器，$D_{meta}$分为任务级别训练集task-level training $D_{tr}$和任务级别测试集task-level test $D_{te}$。
对于里面每一个新任务$T_i$，参数$\theta_i$ 适用于该任务需要一次或多次梯度下降更新：

优化好的$theta_i$要能达到以下的最小损失：

更新$θ$即图中$θ_M$:
Meta-Test
元测试阶段就是 ZSSR, 这个阶段使用模型能够直接学习单个图像内部信息。给定 LR 图像，通过降采样核生成子图像$I_{son}$，用于训练。但是只需要少量的梯度更新就能得到很好的效果，得到最终的模型参数 $\hat{\theta}_{k}$ (ZSSR需要数千次的更新)。

3. 实验

3.1 训练细节

CNN 采用8层网络架构，参数量为225K。对于元转换训练，使用DIV2K数据集作为外部数据集。对于内部循环，使用5次梯度更新，去获得自适应参数。训练时输入图像尺寸为64x64，为了应对由于基础学习器展开过程而导致的梯度消失或爆炸问题，利用每个步骤的加权损失总和，即对每个展开步骤的其他损失进行监督。

最初始的点，除最后展开步骤外，论文平均权衡损失并降低权重。最后，加权损失收敛到最终的训练任务损失。论文采用ADAM 优化器作为元优化器。论文也针对了不同的二次采样方法训练了两种模型：直接和双三次。

3.2 模型分析

论文针对不同的降采样方式，对模型进行分析。

3.2.1 Bicubic 降采样

测试数据集为 Set5，BSD100和 Urban100。论文分析YCbCr 空间下的 Y 通道的图像PSNR 和 SSIM值。MZSR 虽然PSNR 数值与有监督学习方法有较大差距，但是MZSR在测试阶段经过一次梯度更新后就能够取得ZSSR 相当的性能表现。经过10次梯度更新后，性能能够进一步的提升。
在这里插入图片描述

3.2.2 多种模糊核

在这里插入图片描述
论文分析了四种场景：严重混叠，各向同性高斯，非各向同性高斯和各向同性高斯，随后进行Bicubic 下采样。

从下表中可以看到，MZSR 在不同Kernel 上都能够取得出色的性能。可以认为MZSR是一种快速，灵活且准确的超分辨率方法。
在这里插入图片描述
下图进一步说明了 MZSR 的优势，可以看到尽管在初始点上 MZSR 生成的图像具有明显的伪影和噪声，但是经过一次迭代后，MZSR 能够生成接近HR 图像的结果，并且在 PSNR 值上获得了明显的提升。相比之下预训练网络经过一次迭代之后，并不能有效改善图像质量。
在这里插入图片描述
最后是一些测试图像局部细节的对比，验证了MZSR 的有效性。