摘要: Introduction 本文研究是基于文本的行人检索,如下图: 作者先介绍了一下GNA-RNN方法:将每个单词和图像计算相关度,再通过注意力机制进行加权求和获得整个文本与图像的相关度。 本文认为GNA-RNN方法存在一些不足:1)对图像空间中的关键属性感知能力不强(如文本是“黄色衬衫”,会将“黄色 阅读全文
posted @ 2020-12-22 09:05 橙同学的学习笔记 阅读(501) 评论(0) 推荐(0) 编辑