论文笔记:SRCNN
1.这篇论文的主要假设是什么?(在什么情况下是有效的),这假设在现实中有多容易成立
LR图像是HR图像经过模糊(低通滤波器),下采样,加噪处理后的图像。
2.在这些假设下,这篇论文有什么好处
3.这些好处主要表现在哪些公式的哪些项目的简化上。
4.这一派的主要缺点有哪些
1.神经网络的计算速度却决于输入图像的尺寸。由于卷积层是在HR空间中,计算复杂度大
2.插值法仅仅是将尺寸放大,并没有带来解决不适定的重建问题的额外信息。(ESPCN,3)
3.非线性映射层计算复杂度高
4.依赖于小图像区域的上下文(VDSR,1)
5.一个网络只能对应一个scale(VDSR,1)
1.intro
图像超分辨率问题是在CV领域一个经典的问题。目前(2014)最先进的方法大多是基于实例的,主要包括利用图片的内部相似性,或者学习低分辨率高分辨率样本对的映射函数。后者往往需要大量的数据,但是目前有效性不足以令人满意并且无法精简模型。其中典型的是基于稀疏编码的方法,包括以下几步:先从图像中密集地抽取patch并进行预处理,然后使用low-resolution dict对patch进行编码,得到稀疏的coefficients,被换成high-resolution dict用于重建高分辨率patch,对这些patch进行合成或平均以得到高分辨率图像。这些方法将注意力都集中在对dict的学习和优化或者其他建模方法,其余步骤很少得到优化和考虑。
本篇文章我们提出,上述步骤作用相当于一个卷积神经网络。我们考虑直接在高低分辨率图像中建立一个端到端映射的CNN,用隐藏层取代对dict的学习。在这个过程中,patch的抽取和聚合也能够得到应有的优化。这就是SRCNN,其有以下优点:1.模型简单,精度高。2.速度快。3.随着数据集的增大,重建质量还可以增强。但是在以往方法中,数据集增大会带来很多挑战。
本文主要工作:
1.针对超分辨问题提出一个基于端到端映射的卷积神经网络,图像预处理后处理更少。
2.基于深度学习的SR方法和传统的基于稀疏编码方法的比较。
3.论证了深度学习在SR问题中可以被应用,且可以获得较好的质量和速度。
2.related work
2.1 图像超分辨
一类图像超分辨方法时学习高低分辨率patch间的映射,这些工作的主要区别在于学习一些将高低分辨率patch关联起来的dict和manifold space方面,和如何在此空间内进行方案表示方面。
Freeman的工作:dict里的元素直接代表高低分辨率的patch对,在低分辨率空间中找到input patch的最近邻居(NN),对应到相应的高分辨率patch。
Chang的工作:使用manifold embedding technique代替NN策略
Yang的工作:NN对应进展到更为先进的稀疏编码方式。这种稀疏编码方式及其改进是目前最先进的SR方法。
2.2 CNN
CNN最近因其在图像分类领域的成功而变得火热。
2.3 图像复原领域的深度学习
已经有一些使用深度学习技术在图像复原领域应用的例子:多层感知机用于自然图像去噪和post-deblurring去噪,CNN用于自然图像去噪和消除噪声图案。图像超分领域还并未得到应用。
3.SRCNN
3.1 构思
将原始图像通过插值,扩展到插值图像Y,我们的目标就是将Y经过F(Y)变换,尽可能地接近高分辨图像X。方便起见,我们将Y成为低分图像,尽管其尺寸与X相等。
1.patch(图像块)抽取与表示。将Y中的每一图像块抽取出来并表示为高维向量,这些高维向量包括一系列特征图,特征图的个数等于高维向量的维度。
2.非线性映射。将上一步得到的每一高维向量进行非线性映射,得到另一个高维向量。得到的高维向量代表高分辨图像的patch,这些高维向量也包括一系列特征图。
3.重建。聚合上步得到的高分辨图像patch,得到最终的高分图像
patch(图像块)抽取与表示
深度学习之前的常用策略是密集抽取patch并用一组基来表示(如PCA,DCT,Haer)。这个过程等价于使用一组filter(每一个filter相当于一个基)对图像进行卷积。这在此网络中表示为进行卷积操作$$F_{1}\left ( Y \right )=max\left ( 0,W_{1}*Y+B_{1} \right )$$
其中$W_{1}$的尺寸是$c \times f_{1} \times f_{1} \times n_{1}$,$B_{1}$是$n_{1}$维向量。在这之后应用一个RELU单元(RELU相当于非线性映射,而patch的提取和表示是纯线性操作)
非线性映射
上一步得到的得到的每一个$n_{1}$维向量对应于原始图像中的一个patch,将得到的$n_{1}$维向量映射到$n_{2}$维向量,这在此网络中表示为进行卷积操作$$F_{2}\left ( Y \right )=max\left ( 0,W_{2}*F_{1}\left ( Y \right )+B_{2} \right )$$
其中$W_{2}$的尺寸是$n_{1} \times 1 \times1 \times n_{2}$,$B_{2}$是$n_{2}$维向量
注:可以增加额外的卷积层来增加网络的非线性,但也需要考虑因此带来的问题。
重建
在传统方法中,往往将高分patch进行average以产生最终图像。这一平均操作可以替换为:使一系列特征图通过我们预定义好的滤波器。
这在此网络中表示为进行卷积操作$$F\left ( Y \right )=W_{3}*F_{2}\left ( Y \right )+B_{3} $$
其中$W_{3}$的尺寸是$n_{2} \times f_{3} \timesf_{3} \times c$,$B_{3}$是$c$维向量
如果代表HR patch的$n_{2}$维向量是在图像域,则直接把第三次的filter看成一个averaging filter;如果是在其他域,则可以理解为第三层先将系数转换到了图像域继而进行average。
3.2 和稀疏编码方法的关系
在稀疏编码中,考虑从原始图像中抽取$f_{1} \times f_{1}$的LR图像块,这一图像块减掉其均值后被投影到LR字典中。若LR字典大小为$n_{1}$,则这正相当于$n_{1}$个$f_{1} \times f_{1}$线性filter。(减均值操作包括在线性操作中)
the sparse coding solver对$n_{1}$个系数进行非线性映射操作,输出是$n_{2}$个系数,这$n_{2}$个系数代表HR patch。但是这一步骤并不是feed-forward,而是iterative。然而在CNN中的操作却是feed-forward,而且便于计算,此操作可以看做是像素层面的全连接网络。
(针对这里的pixel-wise fully-connected layer, 个人理解:应该说的是前后两组feature maps中对应patch的特征进行全连接,而不是对patch进行全连接。在这里的“像素”应该指的是代表patch的高维向量的每一个维度)
之后,$n_{2}$个系数通过HR字典投影到HR图像块,之后进行average操作。这等效于在$n_{2}$特征图上进行线性卷积。如果用来重建的patch尺寸为$f_{3} \times f_{3}$, 则卷积操作的filter也是$f_{3} \times f_{3}$
以上这些说明了,我们可以用CNN代替传统的稀疏编码,而且CNN能够对所有步骤进行优化。
我们设置的超参数是f1 = 9, f3 = 5, n1 = 64, and n2 = 32
若设置最后一层filter<第一层,则我们更多地依赖于HR patch的中心部分; 为了达到稀疏的目的,也可以设置n2 < n1。
相比于传统方法更精确的原因之一是,此模型中HR像素的感受野大。(每一像素利用了$\left ( 9+5-1 \right )^{2}=169$个原始像素的信息)
3.3 训练
3.3.1 LOSS函数
MSE损失$$L\left ( \Theta \right )=\frac{1}{n}\sum_{i=1}^{n}\left \| F\left ( Y_{i};\Theta \right )-X_{i} \right \|^{2}$$
使用MSE偏好于PSNR,(PSNR是定量评估重建质量的重要指标,与感知质量也相关)。
也可在训练过程中使用更合适的LOSS函数,这点在传统SC方法是不可想象的。
3.3.2 momentun梯度下降
训练的输入是原始图像经过加噪、下采样,上采样。
4. 实验
数据集:训练集:91images
Set5用于2,3,4倍上采样, Set14用于4倍上采样
超参数:f1 = 9, f3 = 5, n1 = 64, and n2 = 32
ground truth尺寸:32*32pixel
将HR图片根据14stride切割成32×32子图,这样一来,91张图片共产生约24800张训练图片。
我们的图片是在YCrCb空间下,且只考虑亮度通道。因此c=1,两个色度空间不会被训练。当然,也可以设置c=3,我们设置c=1只是为了和其他方法竞争公平。
训练阶段,为了避免边缘效应,我们的卷积操作无Padding,这会导致输出尺寸是20*20,我们取ground truth中心的20*20进行LOSS函数的计算。而测试阶段有Padding,可以输入任意尺寸图片,输入尺寸不变,为了解决边界效应,在每个卷积层中,每个像素的输出(在ReLU之前)都通过有效输入像素的数量进行标准化。
filter参数被随机初始化,标准差0.001。前两层LR=10−4,最后一次LR=10-5。根据经验,最后一层LR小对于收敛很重要。
5. 分析
5.1 分析filter
训练出的不同filter对应不同功能
5.2 使用不同数据集会产生不同效果
5.3 filter数量
可以改变层数和filter的数量,来产生不同效果,然而效果的提升意味着牺牲速度的代价
5.4 filter尺寸。同5.3
5.总结
添加更多的layer或者filter可以得到不同效果
也可以探索一种网络来应对不同的上采样倍数。