论文阅读笔记（十四）【AAAI2020】：Appearance and Motion Enhancement for Video-based Person Re-identiﬁcation

Introduction

本文的贡献：提出了基于视频的行人重识别模型：Appearance and Motion Enhancement Model（AMEM）。该模型对两类信息进行提取：提出了Appearance Enhancement Module（AME），采用行人属性学习提取行人的样貌特征；提出了Motion Enhancement Module（MEM），提取行人的步态特征，并对其行走进行预测。

在预测阶段仅使用提出模型的主干网络和两个特征提取模块。

Approach

（1）整体框架：

输入视频序列，通过backbone网络提取出特征，然后通过AEM和MEM模块加强了特征中的外貌和动作信息，最终只使用主干网络和两个模块进行特征距离评估。

一些关键的参数定义：

S = {I₁, I₂, ..., I_T} 表示输入的视频序列，每个视频序列含有 T 帧；

y 表示行人的身份标签；

BF = Ø(S, θ_B) 表示通过backbone网络的特征提取函数（BF为 T' * C * H * W 维），其中 θ_B 表示网络中的参数；

（2）Appearance Enhancement Module（AME）模块：

① 生成伪属性标签（pseudo attribute labels）：

在ResNet-50上对PETA数据集进行训练。使用ResNet-50的Conv5_x模块的输出作为最后的特征映射 f_A^（规格：2048*16*8）。由于属性识别模型的预定义属性数量 N = 105，过于庞大，对属性进行分组。在属性分组前，加上全局平均池化层和全连接层。分组的数量为 M，每组有一个属性特征量 a_m（规格：256），每组含有 N_m 个属性，各组的属性如下表。

第 m 组的属性损失函数为（采用了Binary Cross-Entropy loss）：

其中 p_i^ 表示第 i 属性通过全连接层和Sigmoid层后在第 m 组为真的概率值，l_i^m 表示第 i 个属性在第 m 组是否为真。

Attribute Recognition Model（ARM）的总损失函数为：

将视频的每一帧都输入ARM中，获取图像的属性特征，对于每个特征，采用时间平均池化，对最终的平均预测进行判断，超过0.5设置为true，即 l_i^ = 1，最终得到 l₁^, l₂^, ..., l_N^.

② 外貌增强（appearance enhancement）：

将第 ① 步得到的标签作为 AEM 模块的监督。

将获得的 BF 输入到 appearance branch，生成特征map为 f_A（规格：C * H * W），appearance branch采用2017年提出的 I3D inception block，具体如下：

每一个卷积层都跟着batch正则化层和ReLU激活层。之后采用第 ① 步的标签作为监督，采用类似第 ① 步的做法提取出 M 个属性特征量和 N 个属性预测值，损失函数为：

【个人理解：先用别人的数据集，训练一个行人属性模型，再把作者所用的数据集输入该模型，得到属性label，把属性label作为监督，应用在appearance branch module的训练上。】

（3）Motion Enhancement Module（MEM）模块：

MEM模块预测出未来帧，再跟实际的帧比较，若成功预测，则说明该模型捕获了行人的步行模式。

① 图像自动编码器（Texture AutoEncoder）：

TAE是由2006年被提出，用于编码行人图片，输出的结果 f_tex 规格为 C * H * W。Encoder采用了ResNet-18模型，Decoder采用了4个反卷积模块，每一个模块都有一个带有3*3规格kernel的反卷积层和batch正则化层组成，除了最后的反卷积模块，其它再添加ReLU层，最后通过sigmoid层输出。

TAE采用Market-1501训练，损失函数采用Mean Squared Error（MSE）loss，并添加一项D_TAE用于判断生成的图片是否为真，总损失函数为：

其中 I^ 为输入的图片，I^~ 为输出的重构结果；G、D、f 分别为表示TAE的反编码、D_TAE和f_tex；p_I^ 和 p_f 分别表示在图片和特征空间的样本分布。D_TAE在最大化 L_adv时，TAE在最小化。

【注：该损失函数还没有看懂，参考文献待阅读 2017：Unsupervised representation learning with deep convolutional neural network for remote sensing images】

② 动作提取：

选取输入序列的一帧 I^t（0 < t < T - c），预测下一帧 I^t+1。将 I^t+1 视为通过 f_tex^t+1 反编码得到。 f_tex^t+1 被分为两个部分：当前帧的texture特征 f_tex^t 和动作特征 f_M（表示两个连续帧的运动）。通过TAE提取出了 f_tex^t，通过主干网络 Ø(S, θ_B) 获得动作特征 f_M。motion branch采用了和appearance branch相同的结构，仅仅参数不同。然后将这两个特征concat，并输入texture嵌入模块获得 f_tex^t+1，该模块由两个分别带有3*3和1*1kernel的卷积层、两个batch正则化层和一个ReLU层构成。 f_tex^t+1 通过反编码获得预测的下一阵 I^t+1~。