Zero-DCE 论文解读

Zero-DCE

github:https://github.com/wangyin0810/Zero-DCE

paper:https://openaccess.thecvf.com/content_CVPR_2020/papers/Guo_Zero-Reference_Deep_Curve_Estimation_for_Low-Light_Image_Enhancement_CVPR_2020_paper.pdf

一、创新点

我们提出了第一个立于成对和不成对的训练数据的弱光增强网络，从而避免了过度拟合的风险。因此，我们的方法可以很好地推广到各种光照条件。
设计了一个特定于图像的曲线，该曲线能够通过迭代应用自身来近似像素级和高阶曲线。这种特定于图像的曲线可以在较宽的动态范围内有效地执行映射。
在没有参考图像（non-references）的情况下，通过间接评估增强质量的任务特定非参考损失函数来训练深度图像增强模型的潜力。

二、LE-curve

如图为模型框架：

1. Light-Enhancement Curve (LE-curve)

曲线具有三个设计目标：

每个像素值会被标准化至 $[0,1]$ , 以防信息丢失.
曲线必须是单调的，以防相邻像素之间的差异消失
曲线的形式要尽可能简单，并且是可微的

为了达到以上三个目标，文中设计了一个二次方曲线：

L E (I (x); α) = I (x) + α I (x) (1 - I (x))

$LE(I(x);\alpha) = I(x) + \alpha I(x)(1 - I(x))$

其中，x为像素坐标; $LE(I(x);\alpha)$ 是输入I(x)的增强版本; $\alpha \in [-1,1]$ 是曲线的可训练参数，用于调整LE-curve的级数以及曝光度. 每个像素值都在 $[0,1]$ 之间，每个运算都是像素层面上的.使用时，在输入的RGB通道分别应用LE-Curve，这可以更好地保持固有颜色以及避免过拟合。下图是不同 $\alpha$ 值的LE-curve示意图：

可以看到设计的曲线可以很好地满足上述的三个要求。此外，LE-Curve还能增加/减少输入图像的动态范围，这样不仅可以增强low-light区域，还可以避免过度曝光。

2. High-order Curve

LE-curve可反复应用，以实现更灵活的调整，以应对具有挑战性的低光条件。

L E_{n} (x) = L E_{n - 1} (x) + α_{n} L E_{n - 1} (x) (1 - L E_{n - 1} (x))

$LE_{n}(x) = LE_{n-1}(x) + {\alpha}_nLE_{n-1}(x)(1-LE_{n-1}(x))$

其中，n是迭代的次数，文中将迭代次数设置为8，可以满足大多数情况. 当n为1时，上式就退化为了基本形式。

如图所示为high-order Curve，可以看到，相比于(b)中的图像，其具有更强大的调节能力(更大的曲率)。

3. pixel-wise curve

上述的High-order Curve可以在更宽的动态范围内调整图像，但由于α应用于所有的像素，所以仍为global adjustment，global adjustment会over-/under- enhance局部区域，因此我们将全局的 $\alpha$ 改为每个像素都有一个 $\alpha$ ，记每个像素值对应的 $\alpha$ 组成的矩阵为 $A$ .则曲线为：

L E_{n} (x) = L E_{n - 1} (x) + A_{n} (x) L E_{n - 1} (x) (1 - L E_{n - 1} (x))

$LE_n({x}) = LE_{n-1}(x) + A_n(x)LE_{n-1}(x)(1-LE_{n-1}(x))$

假设局部区域内的像素都具有相同的强度(也具有相同的调整曲线，α一致)，因此输出结果中相邻像素仍保持单调关系，所以pixel-wise的高阶曲线也满足设计的3个要求。

上图为三个通道的estimated curve parameter map的示例，可以看到不同通道的best-fitting parameter maps具有相似的调整趋势，但值不同，说其可以代表low-light图像三通道之间的相关性和差异性。曲线的parameter map能够准确地表示不同区域的亮度情况(例如墙上的两个亮点)，因此可以直接通过pixel-wise curve mapping进行图像增强，如(e)所示，明亮区域保留，黑暗区域增强。

三、DCE-Net

输入为low-light图像，输出为一组用于高阶曲线的pixel-wise curve parameter maps。本文构建的CNN由7个具有对称结构的卷积层组成(类似于U-Net)，前6层的卷积核为(3x3x32，stride=1)然后接一个ReLU激活，抛弃了down-sampling和bn层(作者认为这会破坏领域像素间的关系)，最后一层卷积通道为24(用于8个迭代轮次的parameter maps)，接一个Tanh激活函数。

Non-Reference Loss Functions

为了让DCE-Net学习zero-reference数据，作者提出了Non-Reference Loss Functions损失函数. 分为以下四类：

1. Spatial Consistency Loss

$L_{spa}$ 能够维持输入图像与其增强版本之间的邻域差异(对比度)，从而促进增强后图像仍能保持空间一致性。

L_{s p a} = \frac{1}{K} \sum_{i = 1}^{K} \sum_{j \in Ω (i)} (| (Y_{i} - Y_{j}) | - | (I_{i} - I_{j}) |)^{2}

$L_{spa} = \frac{1}{K}\sum_{i=1}^{K}\sum_{j \in \Omega(i)}(|(Y_i - Y_j)| - |(I_i - I_j)|)^2$

其中，K为局部区域的数量， $\Omega(i)$ 是以区域 $i$ 为中心的相邻的四个区域(top,down,left,right). Y和I分别为增强图像和输入图像的局部区域平均强度值。这个局部区域的Size经验性地设置为4 x 4，如果为其他Size，loss将会变得稳定下来。

2. Exposure Control Loss

$L_{esp}$ 是为了限制曝光不足以及过度曝光的区域，其可以衡量局部曝光强度的平均值与well-exposedness Level之间的差异。文章根据现有的做法，将E设为RGB空间的gray level，本文实验设为0.6（在[0.4,0.7]之间几乎没差异）

L_{e x p} = \frac{1}{M} \sum_{k = 1}^{M} | Y_{k} - E |

$L_{exp} = \frac{1}{M}\sum_{k=1}^{M}|Y_k - E|$

其中, M代表大小为16 x 16的不重叠的区域的个数，Y是Y为增强图像中局部区域的平均像素强度值

3. Color Constancy Loss

根据Gray-World颜色恒等假设, RGB三个通道的平均值近似同一灰度值，然后分别调至每一像素。设计了 $L_{col}$ 用于纠正增强图像中的潜在色偏，同时也建立了三个调整通道之间的关系。

L_{c o l} = \sum_{\forall (p, q) \in ε} (J^{p} - J^{q})^{2}, ε = {(R, G), (R, B), (G, B)}

$L_{col} = \sum_{\forall (p,q)\in \varepsilon}(J^p - J^q)^2,\varepsilon = \{(R,G),(R,B),(G,B)\}$

其中， $J^p$ 代表增强图像通道p的平均强度，(p, q)代表一对通道。

4. Illumination Smoothness Loss

为了保持相邻像素间的单调关系，在每个curve parameter map A上增加了平滑度损失。

L_{t v_{A}} = \frac{1}{N} \sum_{n = 1}^{N} \sum_{c \in ξ} (| \nabla_{x} A_{n}^{c} + \nabla_{y} A_{n}^{c} |)^{2}, ξ = {R, G, B}

$L_{tv_A} = \frac{1}{N}\sum_{n=1}^{N}\sum_{c\in \xi}(|\nabla_x A_n^c + \nabla_y A_n^c|)^2, \xi = \{R,G,B\}$

其中，N是迭代的次数 $\nabla_x$ 和 $\nabla_y$ 是横轴与纵轴方向上的梯度

5. Total Loss

L_{t o t a l} = L_{s p a} + L_{e x p} + W_{c o l} L_{c o l} + W_{t v_{A}} L_{t v_{A}}

$L_{total} = L_{spa} + L_{exp} + W_{col}L_{col} + W_{tv_A}L_{tv_A}$

$W_{col}$ 和 $W_{tv_A}$ 是Loss的权重.

四、Experiment

为了充分发挥Zero-DCE的宽动态范围调整能力，训练集合并了low-light和over-exposed图像(Part 1 of SICE数据集，3022张不同曝光程度的图像，其中2422张图片用于训练)，图像尺寸为512x512。

batch size为8，单卡2080Ti，使用(0, 0.02)高斯函数初始化权重，bias初始为常量，使用ADAM优化器(lr= $1e^{-4}$ )，Wcol 为0.5，WtvA 为20，从而平衡loss间尺度差距。

1. Ablation Study

Contribution of Each Loss：

从上图可以看出，移除 $L_{spa}$ 会导致对比度降低(例如云的区域)；移除 $L_{exp}$ 会导致低亮度区域曝光不足；移除 $L_{col}$ 会出现严重的色偏现象；移除 $L_{tv_A}$ 会降低邻域间的相关性，从而导致明显的artifacts。

Effect of Parameter Settings:

参数方面主要探讨Zero-DCE的深度宽度以及迭代的次数。如上图所示，L-F-N代表Zero-DCE有L层卷积，每层有F个feature map以及迭代次数为N。

Impact of Training Data:

使用不同数据集对Zero-DCE进行训练：1）原训练集中(2422)的900张low-light图像Zero-DCELow ；2）DARK FACE中9000张未标注的low-light图像Zero-DCELargeL ；3）SICE数据集Part 1 and Part2组合的4800张多重曝光图像Zero-DCELargeLH

从(d)中可以看出，移除曝光数据后，Zero-DCE都会过度曝光那些well-lit区域(例如脸部)；从(e)中可以看出，使用更多的多重曝光的训练数据，Zero-DCE对黑暗区域的恢复效果会更好。

2. Benchmark Evaluations

1. Visual and Perceptual Comparison

在多个数据集(NPE LIME MEF DICM VV以及SICE的Part2)上与目前SOAT的方法进行了对比。

上图为不同方法的可视化比较，除此之外，作者还行进行User Study以量化不同方法的主观视觉质量。

User Study：提供输入图像作为参考，邀请15人对这些增强图像的视觉质量进行独立评估，标准为——a) 是否存在over-/under-exposed artifacts和over-/under- enhanced区域；b) 是否存在色偏；c) 是否存在不自然的纹理以及噪声，评分范围为1-5，越高越好。

Perceptual Index：除了使用US score，还应用perceptual Index来评估感知质量，越低越好。

最后US和PI的结果如下表所示，左列为US，右列为PI。