Progressive Sparse Local Attention for Video object detection

motivation:

之前使用flownet的方法有诸多弊端。

1.在检测框架中加入光流网络极大地增加了检测器模型的参数,无法用在移动端。

2.光流原本是描述两张图片间像素点的位移的,直接将其用在high-level的feature map上会引入人为的干扰。特别的,high-level的feature map上的像素点移动一格,对应的图片上可能存在10-20个像素点的位移,光流估计大位移容易出错。

  因此本文舍弃了光流网络,提出了一个叫做Progressive Sparse Local Attention(PSLA)的新模型用来替代光流网络,在高层语义特征之间做特征传播。

具体来说,\(F_t,F_{t+\epsilon}\)分别为帧\(I_t,I_{t+1}\)的特征,PSLA首先计算两特征之间的correspondence weights,然后用这个计算出的权重与特征做卷积来进行特征对齐。这个机制和attention很像但有不同之处,后面会介绍。

和之前的视频目标检测方法类似,本文也是仅在稀疏的关键帧上做特征提取,并用PSLA得到非关键帧的特征。PSLA用在两个地方:

1.将关键帧的特征传播到非关键帧;此外,一个轻量的质量网络被用在非关键帧上,将非关键帧的low-level feature用来同传播来的high-level feature做补充。文章称之为Dense Feature Transforming(DFT).

2.在关键帧之间进行特征传播;此外,一个更新网络被用来递归地更新关键帧上的特征。文章称之为Recursive Feature Updating(RFU).

 

所提出的框架概览

图1.以两张关键帧\(I^{K1},I^{k2}\)和一张非关键帧\(I^i\)为例来简单说明文章的算法框架。关键帧首先送到\(N_f\)来得到高层特征\(F_h^k\),非关键帧送入一个轻量的网络\(N_l\)来提取低层特征\(F_l^i\)。

时序特征\(F_t)用RFU来增强高层特征,其中\(F_t\)是由更新网络结合高层特征来递归更新得到的。与此同时,用DFT在关键帧和非关键帧之间传播特征。

 

PSLA

   用来进行特征传播过程中的特征对齐,是本文的核心。这一操作的motivation如图2所示;

作者随机选了100段视频用flownet提取了光流,然后对光流的值进行了统计,分为水平和竖直方向分别进行了统计。可以看到光流值大部分集中在0附近。

这说明用来计算关联权重的特征单元可以被限制到一个较小的区域,在这个区域里用渐进式稀疏步幅来选择参与计算的特征pixel。渐进式稀疏步幅使PSLA更关注于近邻的具有小光流的区域。

PSLA的操作可以归纳为两步,如下图所示:

第一步,基于两个特征的相似性计算稀疏关联权重值(sparse correspondence weights)。计算公式如下:

值得说明的是,这里的i,和j均代表一个二维坐标。

,这里计算两个一维向量的内积,代表两个向量的相似度。

其中i代表上图中第一个方格图中的深色点坐标,j代表第二个方格图中的方框内的深色点坐标。第二个方格图中深色点坐标的产生具体可看原文。

最后将计算的得到的权重系数用softmax做归一化,

然后得到对齐后的特征:

这个过程其实就是首先求一个卷积核的权重,然后用卷积核在特征图上做卷积操作得到待估计图片的特征。

递归特征更新

被用在稀疏关键帧之间进行特征聚合增强的操作。为了利用之前帧的时序语义信息,在关键帧上不仅要进行特征提取,还要聚合之前关键帧的时序信息,得到一个更强的特征表达。

具体的方法和之前的文章类似,这里就不过多赘述。

稠密特征传播

被用在关键帧和非关键帧之间,使用PSLA将之前关键帧的增强后特征传播到当前非关键帧。这里还用了非关键帧的low-level和传播来的特征进行了一个融合,增强了细节表达。

 

实验结果:mAP=77.1,titan x上18.73fps,比之前的工作有一些提升。

 

posted @ 2019-04-14 11:51  Gaaray  阅读(1278)  评论(0编辑  收藏  举报