Siamese Attentional Keypoint Network for High Performance Visual Tracking--论文笔记
Siamese Attentional Keypoint Network for High Performance Visual Tracking
摘要:视觉跟踪是计算机视觉最基本的主题之一。现存基于DCF和Siamese架构的跟踪算法相对于以前来说取得了极佳的性能。然而,它依旧被认为是一个开放的研究问题,希望开发出一种强大而有效的跟踪器,可以应用于实时的生活场景中。
在本文中,作者研究视觉跟踪的三个主要方面的影响:
- the backbone network,
- the attentional mechanism ,
- the detection component,
并且提出Siamese Attentional Keypoint Network, 简称 SATIN跟踪框架。
- 设计了一个a new Siamese lightweight hourglass network
- 提出一个新的 novel cross-attentional module
- 以及a keypoints detection approach,通过预测目标左上角、中心、右下角坐标获得目标的box信息。
1. 引言
现存的跟踪方法主要是以下两种框架:一是基于循环平移和快速傅里叶变化的DCF,一是双支全卷积网络Siamese convolutional neural network (SiamNet)。
但是目前跟踪算法还被以下问题困扰,首先就是现存的网络框架大多是用于图片分类和检测的,其次不同特征层之间存在着潜在的能够提升精度的联系,最后使用RPN提升跟踪精度的方法会引入冗余的超参。
作者在本文中提出SATIN高性能跟踪方法,该方法有以下三部分组成:
1 Siamese lightweight hourglass network for feature extraction
2 a cross-attentional module for adaptive feature refinement
3 a keypoints detection module for object detection and localization
跟踪响应图如下所示:
SATIN全局框架如下所示:
Siamese lightweight hourglass network中借鉴了人体姿态检测网络中的漏斗网络
在cross-attentional module中引入Spatial attention和Channel-wise attention来获得空间注意 和通道注意。该部分细节如下图所示:
Spatial attention首先将同一位置上不同通道上的特征进行最大池化以及平均池化,Channel-wise attention将每一通道上的2D特征图进行平均池化和最大池化。
keypoints detection module部分借鉴了人体姿态检测的corner detect思想实现目标左上角和右下角坐标的检测,目标中心的检测还是采用siameseNet方法。