论文阅读笔记（二十三）【ECCV2018】：Robust Anchor Embedding for Unsupervised Video Person Re-Identiﬁcation in the Wild

Introduction

当前主要的非监督方法都采用相同的训练数据集，这些数据集在不同摄像头中是对称的，即不存在单个行人的错误项，这些方法将在实际场景中效果下降。在本方法中，作者引入了非对称数据，如下图所示，提出了一个在真实环境下的非监督深度神经网络。

提出一个标签估计方法：a novel Robust Anchor Embeding （RACE） framework。

Proposed Method

（1）概述：

通俗来说，先固定几个序列，给这几个序列加上标签作为anchor，然后输入一个未标签序列，找出距离最近的若干个anchor，用这些anchor加权表示出这个未标签序列，这样既得到了相似距离又得到了权重，我们希望距离越近越好，权重越大越好，综上计算出最佳的anchor，作为预测的标签，循环这个过程得到所有的标签。

（2）Anchor初始化：

【注】anchor表示不同行人的身份，但在假设下并不严谨，两个anchor也可能属于同一个人。

随机抽选 m 个anchor序列传入预训练的ImageNet模型，分别表示不同的行人，即：，其中表示帧级特征向量的集合，l 表示对应的初始化标签。

在本文中，采用classification loss（Person re-identiﬁcation: Past, present and future. 提出）来作为训练的基础结构。【待阅读】

（3）标签估计：

① 鲁棒的Anchor嵌入方法：

定义未标签的视频序列为：。初始的帧级特征向量集合采用平均池化或者最大池化转化为单向量特征。考虑到一些帧存在跟踪偏差，即产生了离群帧（outlier frame），作者采用了regularized affine hull（RAH，From point to set: Extend the learning of distance metrics提出）【待阅读】，理解为对帧进行加权，得到 d 维的特征向量，即：

对于标签估计，首先学习embedding向量（姑且叫做嵌入向量）w_i，用于衡量未标签的特征序列和anchor集合间的关系。学习到第 i 个未标签序列的最近的 k 个anchors，即，k 远远小于 m，用这 k 个anchors来联合表示该未标签序列，即定义如下系数学习问题（Robust AnChor Embeding问题，RACE）：