《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记
《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记
论文标题:DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
来源:ICCV 2017
摘要:
尽管手机中的嵌入式照相机的性能在快速地发展,但是它们所受到的物理限制——较小的感光器件,精简的镜头和缺少特定的硬件——制约着手机的相机拍出与DSLR(单反)同样质量的照片。在本工作中,我们展示了一个端对端的深度学习的方法来弥补这一差距,该方法可以通过将原始的手机相片转换为高质量的单反相机拍出来的图片。我们提出通过应用残差卷积神经网络来提升图片的颜色呈现和图像的锐度。由于标准的均方误差并不适合用来衡量图像的感知质量,因此我们引入了一个由内容误差、颜色误差与纹理误差合成的感知误差函数。头两个误差通过分析得出,纹理误差则通过一种对抗式的方式学习得到。我们还展示了DPED,一个大规模的包含采自于三个不同的手机和一个高端反光相机图片的数据集。我们定量和定性的评估表明通过所提出的算法增强后的图片的质量和单反相机拍出的照片的质量是相当的,同时结果还表明该方法还可以被应用任何类型的数码相机中。
论文主要内容:
1、引言
尽管最近几年手机相机中使用的精简的感光单元取得了极大的进步,使得手机的拍照效果获得了巨大的提升。然而,目前手机的拍照效果依然不如单反数码相机的效果好。因为单反相机有着更大的感光单元和大口径光学镜头,这使得照片能够有更好的分辨率、颜色呈现效果。鉴于额外的感光器件帮助调整拍摄参数,也有着更低的噪声。这些物理差异为手机相机的拍照质量造成了极大的阻碍,使其难以获得与单反相机同样的拍摄效果。现有的一些图像自动增强的工具一般都关注的是全局参数的调整,例如:对比度和亮度,忽视了纹理的质量与图像的语义。此外,这些工具一般都使用一些预定义(pre-defined)的规则,而并没有考虑到某一设备的特性。因此,图片处理的主要方式人工通过某种图像修整工具来完成。
1.1 相关研究
图像质量增强和如下的几个子领域有关:
(1)图像超像素(super-resolution);
(2)图像去雾(dehazing);
(3)图像去噪(denoising);
(4)图像上色(colorization);
(5)图像调整:曝光调整、风格调整等。
1.2 贡献
(1)提出了一个新的图像增强算法,该算法基于学习手机设备照片与DSLR所拍摄的照片之间的映射函数。目标模型使用一个端对端的训练方式,因此不需要任何额外的监督或者特征工程;
(2)采集了一个大规模的超过6000照片的数据库,这些照片涵盖了很多场景,并且是同时由三个低端手机相机与DSLR相拍摄得到的;
(3)提供了一个由颜色损失、纹理损失及内容损失所组成的损失函数,保证有效的图像质量估计;
(4)进行了客观的、主观实验,显示了被增强的图片对原始图片的优势,同时也展现了其与单反相机间相当的质量。
2、DPED数据库
该数据库通过对同一场景,分别使用四个取相设备来获得。取相设备中包括三个手机相机和一个单反相机。用来采集图像的设备如下图2所示。一些图片样例子如图3所示。
为了保证对每一场景,四个相机能够同时取相,因此将这些设备都方式在一个三角架上面,通过无限控制系统来远程启动这四个设备。这些图像都是通过各个相机的默认设置来获取的。由于各个取相设备之间的位置和观察角度存在着区别,因此所拍出来的图片并没有很好地配准。因此文章作者还提出使用非线性变换来获得固定分辨率地图片。方法大致为:计算每一对相机图片与单反图片之间的匹配SIFT关键点。然后使用使用RANSAC来估计一个homography。最后对两张图片进行裁切,保留重叠的部分,将单反的图片的尺寸变为手机相片的尺寸。在训练CNN的时候使用的是从图片中抽取的100*100的图片块。这些图片块是使用不重叠的滑动窗口来从相机-单反图片对中抽取的。
3、方法
3.1 损失函数
由于标准的像素对像素的损失函数是无法应用于本文中的。我们在如下假设的基础之上建立我们自己的损失函数:图片综合的感知质量可以贝分解为三部分:1)颜色质量;2)纹理质量;3)内容质量。下面逐一介绍衡量这些质量的损失函数。
(1)颜色损失
使用经过高斯模糊之后的图片之间的欧时距离来衡量被增强后的图片与目标图片之间的颜色损失。
(2)纹理损失
基于GAN来直接学习一个合适的衡量纹理质量的标准。
(3)内容损失
使用VGG-19网络中relu 5_4层所产生的特征图之间的差异来表示图片之间的内容差异。
(4)总变化误差
使用所生成图片在两个方向上的梯度平均值。
(5)总误差
3.2 模型架构
架构如下图,算法代码地址为:http://people.ee.ethz.ch/~ihnatova/index.html。
4、实验
通过与一些相关方法和工具之间进行定性与定量的比较来评价算法的效果
4.1 对比方法
比较的方法与工具包括:
Apple Photo Enhancer(APE):自动化图像增强的商业软件;
Dong et. al:超像素方法;
Johnson et. Al:超像素方法;
Manuenhancement:邀请一位图像艺术家使用Photoshop对测试用的9张图片进行颜色、锐度及总体感觉进行手动调整。
4.2 量化评价
使用PSNR及SSIM作为衡量标准来量化比较APE、Dong et. al及Johnson et. al及文章中所提出算法的表现。计算应用上述四种方法处理后的图片与由单反拍摄的图片之间的PSNR与SSIM。数据如下表所示。
4.3 用户研究
由于本文的目标是将手机拍摄的照片转化为单反的质量。为了衡量总体的质量,我们设计了一个无参照的用户研究。在用户研究中,被试人被要求从所展示的图片中选择看起来最好的一张图片。主要进行的比较实验包括:
(1)原始底端相机拍摄的图片、单反相机拍摄的图片与由所提出的方法增强过的图片。
每一次,为用户显示两张图片,一张来原始图,一张为单反图或者增强后的图片。每一个相机使用9个场景的图片,每个场景要进行三次不同的比较(原始 VS 单反,原始VS所提出的方法,单反VS所提出的方法),共有3个底端相机,因此本次实验一共要进行81次询问。
(2)只使用iPhone所拍摄的图片,分别与由专家修饰过的图片、由APE自动调整过的图片和由本文所提出方法转换过的图片进行比较。上述两个实验的结果如下:
图中前三个子图表示的是第一个比较试验的结果。第四表示的是第二个比较试验的结果。每一个柱子都代表着实验中某一种图像被选择的比例。