论文阅读笔记（十二）【CVPR2018】：Exploit the Unknown Gradually: One-Shot Video-Based Person Re-Identiﬁcation by Stepwise Learning

Introduction

（1）Motivation：

大量标记数据成本过高，采用半监督的方式只标注一部分的行人，且采用单样本学习，每个行人只标注一个数据。

（2）Method：

对没有标记的数据生成一个伪标签（pseudo labels），将标记的数据和部分伪标签的数据作为扩充数据集进行训练。

但这种方法引入了很多不可信的训练样本，制约了训练模型的性能。

（3）Contribution：

① 为了在单样本学习中更好的利用未标签数据，提出了步进学习方法EUG（Exploit the Unknown Gradually）。介绍如下：

　　通过单样本数据集训练CNN模型；

　　EUG迭代更新CNN模型，分为两步：

　　　　标签估计：对未标记数据生成伪标签，根据预测的可信度选择伪标签数据训练，

　　　　模型更新：使用扩充数据集对CNN重新训练。

② 采用基于距离的抽样准则进行标签估计和样本选择，显著提高了标签估计的性能。

The Progressive Model

（1）预备工作：

符号定义：

标记数据：L = {(x_1, y₁), ..., (x_nl, y_nl)}, |L| = n_l

未标记数据：U = {(x_nl+1), ..., (x_nl+nu)}, |U| = n_u

训练标记数据集的目标函数：

其中， Φ 表示一个嵌入函数，含有参数 θ，表示提取数据 x_i 的特征（可视为CNN）；

f 是一个含有参数 w 的函数，用于将 Φ 函数提取出的特征分类为 k 维的置信度估计（k表示行人的数量）；

l 表示损失函数。

将未标记的数据考虑在内，单样本学习目标函数转为：

其中，y_i^ 表示生成伪标签的第 i 个未标记数据；

s_i 属于 {0, 1}，用于选择放进训练的未标记数据。

（2）框架：

提出一个步进学习方法来解决优化问题，即先优化 θ 和 w，再优化 y^ 和 s。

定义 S 为选择的伪标签的集合：

特征提取函数 Φ 采用一个带有时间平均池化的CNN模型ETAP-Net，该网络基于ResNet-50的架构，在分类层之前添加了全连接层和时间平均池化层。通过时间平均池化，每个tracklet包含的多个帧级特征转为tracklet级特征。在标签估计阶段，每个未标记的视频tracklet都会计算与已标记tracklet的距离，并将最近的数据进行伪标记。