【ARXIV2211】Efficient multi-order gated aggregation network

在这里插入图片描述

作者认为，交互复杂性是视觉识别一个重要特点。为此，作者通过复杂特征交互构建了一个纯卷积的网络 MogaNet 用于图像识别。MogaNet的整体框架如下图所示，架构和一般的 Transformer 网络非常类似，核心包括两个模块：spatial aggregation （取代注意力）和 channel aggregation （取代FFN）。

请添加图片描述

（1）spatial aggregation 如下图所示，蓝色部分叫做 feature decomposition，用于 exclude trivial interactions. (我对这个模块的动机并不太理解，不过下面的 channel aggregation 也用到了这个) 。下面是 Moga模块，也就是多次 DWConv，作者认为是多阶门控。

请添加图片描述

（2）channel aggregation 如下图所示。当前的主流方法FFN中仅包括两个FC层。因此，作者进行了如下改进。我理解这个操作类似于是一个空间位置的注意力，但貌似也并不很一样，不清楚在其它论文里有没有类似的操作。

请添加图片描述

posted @ 2022-12-07 15:09 高峰OUC 阅读(156) 评论(0) 编辑收藏举报

刷新页面返回顶部

OUC计算机科研狗

我们还有一种最后的自由，那就是选择自己的态度

【ARXIV2211】Efficient multi-order gated aggregation network

公告