论文笔记:Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network
Visual Object Tracking based on Adaptive Siamese and Motion Estimation
本文提出一种利用上一帧目标位置坐标,在本帧中找出目标可能出现的位置的网路--motion estimation network (named MEN) 。在产生候选位置时,本文从两个可能的坐标下手,采用高斯分布产生很多候选框。然后将候选框送进Siamese Network进行相似性对比。
作者选用最近几帧的目标作为匹配对象(Buffer),提升鲁棒性。
本文的网络架构基于SINT 结构,加了可变的buffer,提前训练一个权重卷积神经网络(WCNN)。
本文跟踪框架如下图所示:
整个网络由两部分组成:一个用于提取前几帧目标的特征,一个用于提取当前帧的特征。
为了保留时空信息,作者将conv-3,conv-4,conv-5卷积层的池化层去掉,同时利用不同卷积层的特征进行匹配。