CARAFE: Content-Aware ReAssembly of FEatures 可学习的上采样
CARAFE: Content-Aware ReAssembly of FEatures
* Authors: [[Jiaqi Wang]], [[Kai Chen]], [[Rui Xu]], [[Ziwei Liu]], [[Chen Change Loy]], [[Dahua Lin]]
初读印象
comment:: (CARAFE)提出了一种新的上采样方法。
动机
特征上采样是深度神经网络中最基本的操作之一。
过去方法:
- 最近邻和双线性插值:仅考虑了亚像素邻域,未能捕捉密集预测任务所需的丰富语义信息。
- 反卷积:反卷积算子在整幅图像中应用相同的核,而不考虑内容,这限制了其应对局部变异的能力。参数量和计算量大。
方法
提出了内容感知的特征重组CARAFE,有以下优点
- 大感受野:不同于以往仅利用亚像素邻域的工作(例如双线性插值),CARAFE可以在较大的感受野内聚合上下文信息。
- 内容感知处理:CARAFE不对所有样本使用固定的内核(例如反卷积),而是支持特定于实例的内容感知处理,从而实时生成自适应的内核。
- 轻量、快速计算。
内容感知的特征重组
给定一个大小为\(C × H × W\)的特征图\(X\)和一个上采样比率\(σ\) (假设\(σ\)是一个整数),CARAFE将产生一个新的大小为\(C × σH × σ W\)的特征图\(X'\)。
对于输出X′的任意目标位置\(l'=(i', j')\),在输入\(X\)处有相应的源位置\(l = ( i , j)\),其中\(i = [i'/ σ],j = [j'/ σ]\)。用\(N(X_l, k)\)来代指\(X\)中以位置\(l\)为中心的\(k×k\)子区域。
-
根据每个目标位置的内容预测一个重组核:预测核模块\(ψ\)根据\(X_l\)的近邻预测每个位置\(l'\)的位置核\(W_{l'}\)。
-
用预测的核对特征进行重组:\(φ\)是内容感知的重组模块,它将\(X_l\)的邻居与内核\(W_{l'}\)进行重组。
Kernel Prediction Module
目标:\(X\)中一个位置对应\(X'\)中\(σ^2\)个位置,每个目标位置要一个\(k_{up}\times k_{up}\)大小的核,所以该模块最终生成的核大小为\(C_{up}*H \times W\),其中\(C_{up}=σ^2{k_{up}}^2\)。
有三个部分:
- 通道压缩器减少了输入特征图的通道。
- 内容编码器将压缩后的特征图作为输入,对内容进行编码,生成重组核。
- 核正规化器对每个重组核应用一个softmax函数。
Channel Compressor
使用\(1\times 1\)卷积将维度压缩到\(C_m\)
Content Encoder
使用输入通道为\(C_m\),输出通道为\(C_{up}\),大小为\(k_{encoder}\times k_{encoder}\)的卷积核,经验公式\(k_{encoder}=k_{up}-2\)。得到的特征图的大小为\(C_{up}\times H\times W\)
Kernel Normalizer
\(C_{up}\)个通道分为\(σ^2\)个块,块有\(k_{up}^2\)层。将这\(σ^2\)个块进行重排列,得到\(σH\times σW\)大小的特征图,通道数为\(k_{up}^2\),位置\(l'=(i',j')\)上的\(k_{up}^2\)个数就是对应\(X'\)中\(l'\)位置的重组核。
对每一个\(k_{up}\times k_{up}\)大小的重组核,使用softmax对其正则化,归一化步骤迫使核值之和为1,这是一个跨越局部区域的软选择。
Content-aware Reassembly Module
对\(X'\)中每个点使用相应的重组核进行权重聚合
启发
带权重的上采样,还展示了在目标内容不变的情况下,如何生成不同的权重以产生不同的值。