Siamese Attentional Keypoint Network for High Performance Visual Tracking--论文笔记

摘要：视觉跟踪是计算机视觉最基本的主题之一。现存基于DCF和Siamese架构的跟踪算法相对于以前来说取得了极佳的性能。然而，它依旧被认为是一个开放的研究问题，希望开发出一种强大而有效的跟踪器，可以应用于实时的生活场景中。

在本文中，作者研究视觉跟踪的三个主要方面的影响：

并且提出Siamese Attentional Keypoint Network, 简称 SATIN跟踪框架。

1. 引言

现存的跟踪方法主要是以下两种框架：一是基于循环平移和快速傅里叶变化的DCF，一是双支全卷积网络Siamese convolutional neural network (SiamNet)。

但是目前跟踪算法还被以下问题困扰，首先就是现存的网络框架大多是用于图片分类和检测的，其次不同特征层之间存在着潜在的能够提升精度的联系，最后使用RPN提升跟踪精度的方法会引入冗余的超参。

作者在本文中提出SATIN高性能跟踪方法，该方法有以下三部分组成：

1 Siamese lightweight hourglass network for feature extraction

2 a cross-attentional module for adaptive feature refinement

3 a keypoints detection module for object detection and localization

跟踪响应图如下所示：

SATIN全局框架如下所示：

Siamese lightweight hourglass network中借鉴了人体姿态检测网络中的漏斗网络

在cross-attentional module中引入Spatial attention和Channel-wise attention来获得空间注意和通道注意。该部分细节如下图所示：

Spatial attention首先将同一位置上不同通道上的特征进行最大池化以及平均池化，Channel-wise attention将每一通道上的2D特征图进行平均池化和最大池化。

keypoints detection module部分借鉴了人体姿态检测的corner detect思想实现目标左上角和右下角坐标的检测，目标中心的检测还是采用siameseNet方法。

posted @ 2019-05-07 22:47 burton_shi 阅读(724) 评论(0) 收藏举报

刷新页面返回顶部

HahaStrong