Flow-Guided Feature Aggregation for Video Object Detection

来自MSRA视觉计算组，发表在ICCV2017上，提出了一个通过特征聚合来增强特征的方法。

　　视频目标检测中，存在图像质量退化的问题，具体的如图，有运动模糊、视频失焦、部分遮挡、奇特姿势等。现有的目标检测算法不能很好地应对这些问题。作者打算

利用视频的连续性，视频中短时间内同一目标会被多次观察到，用质量好的图像特征来增强质量差的图像特征，来达到提高检测精度的目的，总结为一句话就是：单帧不够，多帧来凑。

这里也用到了光流对特征进行warp。

　　与DFF不同，FGFA追求精度而不考虑速度，对于视频中的所有帧都做同样的处理，就是说把每一帧都当作关键帧。同时提取关键帧和其前后相邻K帧的特征，一共提取2K+1帧的图片特征，

并计算每一相邻帧和关键帧的特征光流图，然后将相邻帧的特征warp到关键帧，最后通过加权求和得到关键帧的增强特征，这里对feature map上每一个点都求一个权值，这里每一个点的权值

代表了这个点对关键帧上对应点的重要性，如果warp后的特征与关键帧的特征越接近，就给予更大的权值，否则分配较小的权值。这里用余弦相似度来衡量两个特征的相似度，最后通过softmax

对权值进行归一化，将增强后的特征送入检测网络，得到检测结果。

　　通过特征聚合的方式，FGFA得到了更高的精度，用resnet101做特征提取时，与单帧图片检测的baseline的73.4mAP相比，本文提出的方法达到了76.3的mAP，但是损失了很多速度，帧率只有1.36。

同时作者还做了一些额外的实验，他将测试的图片根据运动物体的快慢分成了三类，慢速、中速和快速，分别测试了算法在这三类图片上的实验结果，中速和慢速的mAP都挺高的，但是快速的mAP只有57.6。

同时与baseline相比，FGFA对中速和快速类的图片检测精度提升都挺高的，对慢速类的提升较小。此外还通过消融学习的方法说明了文章提出的加权特征聚合、光流warp、端到端训练的有效性。

posted @ 2019-03-24 15:37 Gaaray 阅读(798) 评论(0) 编辑收藏举报

刷新页面返回顶部

Gaaray