摘要: 1、摘要 编码器与解码器的分离导致了图片和句子间关系的断连,最终生成的字幕只包含主要的实例但是意外地忽视了其他的物体和场景。为了解决这个问题,本文提出了一个上下文融合指导的图片字幕生成系统,它将局部和全局的图片表示作为合成的视觉特征去学习图片中的物体及其属性;为了整合图片级别的语义信息,采用了vis 阅读全文
posted @ 2022-04-11 20:44 EkkoMay 阅读(38) 评论(0) 推荐(0) 编辑