Siamese Attentional Keypoint Network for High Performance Visual Tracking--论文笔记

Siamese Attentional Keypoint Network for High Performance Visual Tracking

摘要:视觉跟踪是计算机视觉最基本的主题之一。现存基于DCF和Siamese架构的跟踪算法相对于以前来说取得了极佳的性能。然而,它依旧被认为是一个开放的研究问题,希望开发出一种强大而有效的跟踪器,可以应用于实时的生活场景中。

在本文中,作者研究视觉跟踪的三个主要方面的影响:

  • the backbone network,
  • the attentional mechanism ,
  • the detection component,

并且提出Siamese Attentional Keypoint Network, 简称 SATIN跟踪框架。

  1. 设计了一个a new Siamese lightweight hourglass network 
  2. 提出一个新的 novel cross-attentional module
  3. 以及a keypoints detection approach,通过预测目标左上角、中心、右下角坐标获得目标的box信息。

1. 引言

现存的跟踪方法主要是以下两种框架:一是基于循环平移和快速傅里叶变化的DCF,一是双支全卷积网络Siamese convolutional neural network (SiamNet)。

但是目前跟踪算法还被以下问题困扰,首先就是现存的网络框架大多是用于图片分类和检测的,其次不同特征层之间存在着潜在的能够提升精度的联系,最后使用RPN提升跟踪精度的方法会引入冗余的超参。

作者在本文中提出SATIN高性能跟踪方法,该方法有以下三部分组成:

1 Siamese lightweight hourglass network for feature extraction

2 a cross-attentional module for adaptive feature refinement

3 a keypoints detection module for object detection and localization

跟踪响应图如下所示:

SATIN全局框架如下所示:

Siamese lightweight hourglass network中借鉴了人体姿态检测网络中的漏斗网络

 

在cross-attentional module中引入Spatial attention和Channel-wise attention来获得空间注意 和通道注意。该部分细节如下图所示:

 

 Spatial attention首先将同一位置上不同通道上的特征进行最大池化以及平均池化,Channel-wise attention将每一通道上的2D特征图进行平均池化和最大池化。

 keypoints detection module部分借鉴了人体姿态检测的corner detect思想实现目标左上角和右下角坐标的检测,目标中心的检测还是采用siameseNet方法。

 

posted @ 2019-05-07 22:47  burton_shi  阅读(682)  评论(0编辑  收藏  举报