论文阅读笔记（六十八）：图文跨模态行人检索(3篇)

1. Pose-Guided Multi-Granularity Attention Network for Text-Based Person Search【AAAI2020】

(1) 视觉特征提取：

作者认为人体姿态信息可以引导局部特征的匹配，因此引入了2017年提出的PAF模型进行姿态估计，提取14个关键点。由于行人会受到遮挡等情况，关键点也并非精确，其置信图如下图所示。关键点置信图存在两个作用：

① 与原图的3个通道级联，得到17通道的初始数据，输入VGG-16 (ResNet-50也同理)中，提取[12, 4, 512]尺寸的特征图，再将特征图按PCB的策略划分为6个条纹，每个条纹在第一个维度上取平均，得到尺寸为[6, 4, 512]的特征图，将其视为24个局部，每个局部对应512维特征向量。

② 14个置信图被用于与名词短语之间的语义对齐。

(2) 文本特征提取：

文本特征采用Bi-LSTM提取，其中名词短语采用2002年提出的NLTK进行查找，并同样用Bi-LSTM提取名词短语的特征。

(3) Coarse Alignment Network:

用余弦相似度计算每个图像局部区域和整体文本的特征相似度，最终整体图像与整体文本的相似度得分为：阈值=1/24

(4) Fine-Grained Alignment Network:

14个关键点被划分为6个身体区域，每个区域的特征图相加，并通过Pose CNN投影为b维的特征向量，即：，每个名词短语特征都投影到相同的特征维度，即：。计算第1个区域的文本特征，即：

其余5个区域的文本特征同理。相同的机制也应用到了视觉特征，即：。

图文细粒度的相似度为：

(5) 损失函数：

采用了Identify-aware的思想，对不同模态采用了ID损失。并对不同模态之间采用了三元组损失。对姿态的特征p进行分类损失，使得这6个特征能表示不同类别。

(6) 实验结果：

2. ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language【arXiv2020】

(1) Align Loss：

采用余弦相似度评估图文特征距离，即：

约束表示为：

具体化为Alignment Loss为：

(2) K-reciprocal Sampling:

通俗理解为：找到包含同一个属性且互相最相似的样本对。

(3) 实验结果：

3. Person Search with Natural Language Description【CVPR2017】

posted @ 2021-04-11 21:02 橙同学的学习笔记阅读(948) 评论(0) 编辑收藏举报

刷新页面返回顶部