2018 经典的CVPR 关于ImageCaptioning论文

1. SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text(2018 CVPR)

主要研究方向：本论文主要是做语言风格，就是对同一张图片有多种描述。

2. Neural Baby Talk（2018 cvpr）

主要研究内容：对于图片的描述更多的应该是基于图像内容，而不是基于语言模型去推理；如果是非常见场景，那么模型就差强人意。

3. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering（2018 CVPR）

主要研究内容：针对attention之前输入的是均等化图片格子，而不是具体的如同人眼观察到的图像内容，故而本论文是先用faster-RCNN检测得到feature map，而后对其加权，再进行转化为自然语言。

4. GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

研究motivation：1.当前研究都是基于单张图片，没有基于多张图片去做；2.当前只有多样性的的研究，而没有图片相关性的研究。

应用场景：对于图相册的captioning任务。

数据集：http://mac.xmu.edu.cn/Data_cvpr18.html (基于MSCOCO更改而成)

5. Image Caption Generation with Hierarchical Contextual Visual Spatial Attention

主要研究方向：这里提出的注意力机制考虑了图片region之间的上下文。

posted @ 2019-12-22 16:24 suwenyuan 阅读(455) 评论(0) 编辑收藏举报

刷新页面返回顶部

suwenyuan