【AAAI2023】Ultra-High-Definition Low-Light Image Enhancement

【AAAI2023】Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method

代码：https://github.com/TaoWangzj/LLFormer

这个论文首先构建了ultra-high definition low-light （UHD-LOL）数据集，然后提出了 Low-Light Transformer (LLFormer)。

LLFormer 的整体框架如下所示，可以看出和 Restormer 有些类似。我的理解，作者改进了三个点：1、Transformer block里面修改了 attention；2、Transformer block里修改了FFN；3、添加了 cross-layer attention 。改进的部分分别用绿框标出了，下面分别进行介绍。

请添加图片描述

1、Axis-based Transformer Block

Transformer 在图像修复中应用的难点在于计算复杂度高，在Q和K计算相似性时，对于输入为（C,H,W）的特征需要进行CHWxCHW的矩阵运算。因此，作者分为两个步骤，第一步相似性计算的是HxH，叫做 height-axis attention。第二步相似性计算的是 WxW，叫做 width-axis attention。(这里可以对比 Restormer，只是在C这个维度计算相似性)

请添加图片描述

2、Dual Gated Feed-forward Network（GDFN）

在Restormer中，FFN有两个分支，其中有一个分支上使用GELU激活对另一个分支添加门控。在这个论文中，作者给两个分支都使用 GELU 激活，然后互相给另外一个分支添加门控（如下图），这样就进一步增强了FFN的非线性建模能力。

请添加图片描述

3、Cross-layer Attention Fusion Block

一个网络有很多层，大多方法没有考虑层与层之间特征的关联。从论文整体架构图中可以看到，网络输入有三个Transformer block，这样就有三个特征输出（相当于下图中输入的三组特征，N=3）。作者通过 attention 运算，计算一个3x3的相似性矩阵，给输入的特征进行加权。输入的三组特征里，强调重要的、抑制不重要的。Layer attention 的思路最早应该是在【ECCV2020】Single Image Super-Resolution via a Holistic Attention Network 这个论文里出现（在任文琦老师报告里听到的）

请添加图片描述