【第三周】论文学习笔记
《Selective Kernel Networks》论文阅读
一、引言
- 在神经科学界,视皮层神经元的感受野大小受刺激的调节,即对不同刺激,卷积核的大小应该不同
- 本文提出了一种在CNN中对卷积核的动态选择机制,该机制允许每个神经元根据输入信息的多尺度自适应地调整其感受野(卷积核)的大小。
- 本文设计了一个选择性内核单元(SK)的构建块,多个具有不同卷积核大小的分支,通过Softmax的分类后,根据权重进行融合。
二、SK组成
-
Split
-
通过Split算子产生多条不同核大小的分支(注意:是多条,图中仅有两条)。图中经过Split操作后,使用3×3和5×5的卷积核进行卷积,得到两个分支(绿色的U和黄色的U)。
-
为了进一步提高效率,文中使用空洞卷积(3×3,rate=2)代替常规卷积,如下图所示:
-
-
Fuse
-
通过对应位置元素求和从多个分支中融合结果
-
通过全局平均池,生成信道统计信息S
-
通过全连接层创建了一个紧凑的特征Z
其中,δ为ReLU激活函数,B表示批标准化
-
-
Select
- 按照信道的方向使用Softmax(注:在这里使用Softmax相当于是对Z进行一个二分类,通过Softmax之后,附加权值,因为Softmax函数的取值范围在[0,1])。
《Strip Pooling: Rethinking Spatial Pooling for Scene Parsing》论文阅读
一、引言
- 这篇论文提出了一种新的池化方式,在分割网络的池化操作上进行升级,针对传统正方形卷积带来的问题,提出了使用矩形(长条状)卷积进行替换。
- Strip Pooling能够增大感受野,从而使得那些相距较远的部分也能被网络捕捉到。
- Strip Pooling能够使得池化操作更加关注一片区域,避免正方形卷积造成的引入过多无关信息。
二、网络结构
1. Strip Pooling Module(SPM)
- input tensor(T1)的尺寸为H×W,对input tensor中对应位置的两个strip pool进行池化操作,条形池化核为H×1和1×W
- 利用1维卷积将结果扩充为H×W(从图中可以看出,一个是横向扩展,一个是纵向扩展)
- 将对应位置的值相加,得到一个H×W的tensor,记为T2
- 再将T2进行1×1卷积(改变通道数,类似于BottleNeck)和Sigmoid函数得到T3
- 将得到的T3与T1进行点乘的到最后output tensor
下图为常规池化和Strip Pooling的效果对比图。
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文阅读
一、引言
- 本文提出了一种网络结构HRNet,该结构在整个过程中保持特征图的高分辨率。
- 在HRNet之前,2D人体姿态估计算法是采用将高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率的思路。
二、模型结构
下图为HRNet结构图
- 横向表示为模型深度变化,纵向表示特征图尺度变化。
- 第一行为主干网络,特征图为高分辨率,作为第一阶段;
- 第二行、第三行为子网络,并行加入到主干网络中;
- 各并行网络之间相互交换信息,实现多尺度融合与特征提取。
- 最终,从高分辨率(主干网络)输出所估计的关键点。
以上结构的好处为:
- 每一个高分辨率到低分辨率的特征图表示,都可以一次次地从其他并行表示分支接收信息,从而得到信息更丰富的高分辨率表示。
- 最终,网络输出的关键点更精确,空间分辨率精度更高。