ALBEF -> BLIP -> BLIP-2

ALBEF

因果关系的self-attention,拥有前半句,生成后半句

解决了生成任务,如何解决噪声数据?

BLIP 2

查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标文本指导查询图像

当前已经能从图像编码器中提取到更有用的视觉信息

posted @ 2023-03-18 22:00  Tsukinousag1  阅读(101)  评论(0)    收藏  举报