论文阅读笔记（五十五）【WACV2018】：Improving Text-based Person Search by Spatial Matching and Adaptive Threshold

Introduction

本文研究是基于文本的行人检索，如下图：

作者先介绍了一下GNA-RNN方法：将每个单词和图像计算相关度，再通过注意力机制进行加权求和获得整个文本与图像的相关度。本文认为GNA-RNN方法存在一些不足：1）对图像空间中的关键属性感知能力不强（如文本是“黄色衬衫”，会将“黄色短裤”的行人误判）；2）对image-word pair关联度过于敏感（对于一个关键词分配的权重可能会非常大。当一张图像完美匹配了绝大部分关键词时，可能会比匹配所有关键词但不完美时关联度更高）。

本文提出了一个patch-word匹配模型，且设计了一个动态阈值机制。不同于其它方法将整张图像进行匹配，此方法计算单词与局部图像块的关联度。对于每个单词都设置一个阈值来判定是否和图像匹配，并对关联度进行一个动态压缩以缓解匹配时的敏感问题。

The Model

Patch-word Matching Model

行人图像的特征提取网络采用在ReID数据集上预训练的VGG-16，输出的特征图为7x7x512，在空间上划分成49个patch，每个patch的特征向量为512维。文本的编码器包含一个单词的投影层(word-embedding layer)和LSTM层，单词投影层将每个单词投影为512维的词向量。LSTM把每个词向量的hidden state输出为前文的文本特征。文本特征和图像特征的关联度采用内积的计算方法。最后采用最大池化对49个patch的关联度进行结合。

当输入的短语是“a man wears a yellow shirt”，当输入LSTM是“shirt”时，由于LSTM的记忆性，输出的文本特征能够同时包含“yellow”和“shirt”两者的信息。当图像中的patch同时满足“yellow”和“shirt”时，能够捕获较高的响应；当图像中的patch仅仅满足“yellow”或者“shirt”时，则关联度将比较低。因此本方法能够克服GNA-RNN的第一个不足。

为了计算最终的image-text关联度，作者采用了一个单词注意力子网络，将LSTM输出的hidden state输入FC+Sigmoid得到权重。

训练时选择正样本对与负样本对的比例是1:3，交叉熵损失为：