【CVPR2021】Dynamic Region-Aware Convolution
这个论文的核心词是:动态网络。作者认为,传统卷积对于不同样本使用相同的 filter,如果能够对不同区域的特征使用不同的卷积核可以显著提升特征表达能力。如下图所示,把图像分割为不同区域,对不同区域采用不同的卷积核,可以提高特征表达能力。下图左边是对目标和背景采用不的卷积核,右边是对人脸不同部分采用不同的卷积核。
为了实现这一目标,作者提出了 dynamic region-aware conv,如下图所示,包括两个步骤:
- 第一步,生成 guided mask,将特征分割为若干个区域;
- 第二步,每个区域中,生成一个定制的 filter 进行卷积(filter 可以根据输入的图像动态调整)

在第一步中,如何分割就相当关键了。作者是通过卷积来实现的,使用卷积生成 个通道的 guided feature 。图中包括背景、眼睛、脸、牌子、嘴五个区域,因此 。分割是通过 argmax 来实现。
动态网络大多会采用 argmax 方法,前向传播用的是 hardmax ,反向传播用的是 softmax 近似。
生成卷积核的步骤如下图所示,将输入特征自适应池化成 ,然后使用两个连续的 1x1 卷积处理,第一个卷积使用 sigmoid 激活,第二个卷积分组为 ,不使用激活。

实验部分有个有趣的发现是,模型规模越小,该方法提升越明显 ,这是因为DRConv在空间维上提高了语义表达能力,对于表达能力较弱的小模型,帮助更为明显。
这个论文还有一个终极问题: feature map 每个区域对应的卷积核都不一样,不清楚如何实现这种分区域的卷积?
最简单的方式是,各个卷积核对 feature 都进行卷积,然后过滤掉不用的区域,然后合并结果。由于作者没有公开代码,不清楚实际是如何实现的。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY