论文阅读笔记(五十六)【ICASSP2019】:Language Person Search with Mutually Connected Classification Loss
Introduction
本文的贡献主要分为两部分:
1) 提出了一个baseline,包含了视觉特征的提取网络、bi-directional LSTM语言编码器、三元组损失;
2) 提出了一个mutually connected classification loss (互联分类损失)。
Proposed Approach
文本特征的提取采用了bi-LSTM (双向LSTM),得到每个单词的文本特征 (双向的特征级联),再通过注意力进行加权,得到文本的特征。注意力权重的计算为:。图像特征的提取采用了在ImageNet上预训练的MobileNet网络。交叉熵损失为:
互联分类损失包含了两部分:
1) 对文本特征的分类损失和对图像特征的分类损失:
2) 基于KL散度计算互联约束损失:
Experiments