Towards High Performance Video Object Detection for Mobiles
motivation:
近来以桌面版GPU为计算平台的视频目标检测取得了较多成果,如DFF,FGFA等,但这些算法没法用在移动端,移动端的计算资源有限不足以运行这些算法。
本文提出了一个用于移动端的轻量化视频目标检测网络。在稀疏关键帧上运行轻量化的图片目标检测器,使用了一个非常小的轻光流网络来提取光流场。
同时文章还提出了一个GRU模型来在关键帧上进行高效的特征聚合。在非关键帧上进行稀疏特征传播。整个网络可以被端到端地训练,在imagenet VID上达到了60.2的mAP,
在华为Mate8上达到了25.6的fps。
介绍:文章提出了一个轻量化的网络结果用于视频目标检测,该算法基于两个原则,一个是在非关键帧上进行特征传播,另一个是在关键帧之间进行特征聚合,同Towards High Performance Video Object Detection。
但是考虑到速度、模型大小、准确率,算法中用到的网络结构都需要重新设计。对所有帧,利用一个非常小的可以在移动端运行的Light Flow网络来估计光流。对稀疏关键帧,作者提出了一个flow-guided gated recurrent unit来进行特征聚合。
此外,文章还使用了一个轻型图片目标检测器来在关键帧上计算特征。
Light Flow:
基于FlowNet重新设计的轻型光流估计网络。损失了15%的精度换来65倍的提速。具体结构设计可参见文章3.1.
Flow-guided GRU based feature aggregation:
特征聚合无疑对提高精度是非常重要的,FGFA中的融合方法是线性的没有记忆能力,递归特征融合虽然有了进步,但是难以训练去建模更长的帧间信息,部分原因是递归网络中的梯度消失和梯度爆炸。GRU在建模较长时间信息方面优于LSTM和RNN,因为在网络状态更新中考虑了非线性性。受这一点启发,本文在特征聚合中引入了卷积GRU用作特征集成,而不是仅仅进行加权平均。
在这里星号表示3x3卷积,圈表示点乘.
Lightweight key-frame object detector:
检测器的backbone使用了MobileNet,任务网络采用RPN和Light Head RCNN。