ALBEF -> BLIP -> BLIP-2
因果关系的self-attention,拥有前半句,生成后半句
解决了生成任务,如何解决噪声数据?
BLIP 2
查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标文本指导查询图像
当前已经能从图像编码器中提取到更有用的视觉信息
因果关系的self-attention,拥有前半句,生成后半句
解决了生成任务,如何解决噪声数据?
查询和当前这个文本最相关的图像信息是什么,同时把不想关的文本信息丢掉,目标文本指导查询图像
当前已经能从图像编码器中提取到更有用的视觉信息