论文笔记之：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

arXiv Paper

　　Project Page：http://guanghan.info/projects/ROLO/

　　GitHub：https://github.com/wangxiao5791509/ROLO　　

　　摘要：本文提出了一种新的方法进行空间监督 RCNN 来进行目标跟踪。我们通过深度神经网络来学习到 locations 的历史信息和具有判别性的视觉特征。收到最近的 bbox 回归技术的启发，本文研究了 LSTM 在时间领域的回归能力，可以连接高层视觉特征。跟现有的跟踪算法训练二分类器不同，我们在卷积层和 recurrent unit 两个方面利用回归直接得到跟踪位置的预测。

　　由于受到各种跟踪问题的挑战，许多 tracker 都是采用产生式或者判别式的方法来区分前景或者背景，也就是将跟踪看做是一个二分类问题。一个主要的缺点在于：严重依赖于手工设计的feature，无法结合物体的语义信息（semantic information），对于突然的形变并不具有鲁棒性。所以，随着深度学习的火爆，越来愈多的 tracker 开始采用深度feature。但是，在时序上的探索，几乎还没有。

　　本文的关键动机是：tracking failures can often be effectively recovered by learning from historical visual semantic and tracking proposals.

　　算法流程：

　　如上图所示：算法的输入是 video frame，第一个框架是 YOLO，然后是 LSTM 单元，最终输出的是 target 的 location。

　　然后文章介绍了 LSTM 和 YOLO 的相关背景知识，此处略去，详情请参考相关文章。

　　本文提出的 tracker 的示意图，如下所示：

　　网络的训练分为三个阶段：

　　1. the pre-trained phrase of convolutional layers for feature learning; 卷积层的预训练，以提取 feature

　　2. the traditional YOLO training phase for object proposal 　　　　　　训练 YOLO 以产生 proposal

　　3. the LSTM training phase for object tracking. 　　　　　　　　　　　　训练 LSTM 进行跟踪

实验效果展示：

posted @ 2016-08-16 00:22 AHU-WangXiao 阅读(2468) 评论(0) 收藏举报

刷新页面返回顶部

The Blog of Xiao Wang

Associate Professor, School of Computer Science and Technology, Anhui University, Email: xiaowang@ahu.edu.cn

论文笔记之：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

公告