【ARIXV2209】Multi-Scale Attention Network for Single Image Super-Resolution

这是来自南开大学的工作，将多尺度机制与大核注意机制结合，用于图像超分辨率。

2022年初，大核卷积火了，Visual Attention Network （VAN）提出将大核卷积划为：depth-wise conv，dilated conv，和 point-wise conv 的组合（如下图所示）。VAN作者指出，图像超分任务中使用VAN，发现了一个很重要的问题：含膨胀的深度卷积会为超分任务带来“块状伪影（blocking artifacts）”

请添加图片描述

作者提出的方法叫做 Multi-scale Attention Network（MAN），总体框架如下图所示。核心模块为MAB，是一个 Transformer block，由 attention 和 FFN 组成。其中，attention 为 MLKA，FFN 为 GSAU。需要注意的是，最后还使用了一个LKAT，下面分别进行详细介绍。

请添加图片描述

1、Multi-scale Large Kernel Attention （MLKA）

MLKA首先使用 Point-wise conv 改变通道数，然后将特征 split 成三组，每个组都使用 VAN 里提出的大核卷积来处理（即depth-wise conv，dilated conv，和 point-wise conv 的组合）。三组分别使用不同尺寸的大核卷积（7×7、21×21、35×35），膨胀率分别设置为（2，3，4）。

请添加图片描述

使用深度膨胀卷积会带来“块状伪影”问题。因此在分组后，作者引入门控聚合来动态调整LKA的输出。即上图中最上面的DWConv。在对应组中，与下方深度卷积使用的核尺寸一致，并将该卷积的输出与对应组中LKA的输出做逐元素乘法。作者将这一操作称为门控聚合，并且进行了可视化实验以说明其效果。

2、 Gated Spatial Attention Unit (GSAU)

普通的FFN是两个 point-wise conv 。为了进一步增强特征表示，作者引入了 spatial self-attention 和 gated linear unit (GLU) 的思路，具体如下图所示，上面分支加入了一个 dwconv 对结果加权，两个分支的特征进一步加强了特征表示。

请添加图片描述

3、Large Kernel Attention Tail (LKAT)

作者采用了以前超分方法的范式，将一个LKA用在网络尾部，以进一步从特征中总结出可用的信息，提升图像修复性能。

请添加图片描述

本论文以VAN为基础，通过加入多尺度以及门控机制解决“块状伪影”问题，取得了非常好的性能。实部分可以参考作者论文，这里不再过多介绍。

posted @ 2023-01-24 21:58 高峰OUC 阅读(316) 评论(0) 编辑收藏举报

刷新页面返回顶部

OUC计算机科研狗

我们还有一种最后的自由，那就是选择自己的态度

【ARIXV2209】Multi-Scale Attention Network for Single Image Super-Resolution

1、Multi-scale Large Kernel Attention （MLKA）

2、 Gated Spatial Attention Unit (GSAU)

3、Large Kernel Attention Tail (LKAT)

公告