大论文资料
总结
请你总结以下三个部分:
1.本文想要解决什么问题?
2.提出了什么方法解决该问题?
3.方法的具体原理?
Disentangling Before Composing: Learning Invariant Disentangled Features for Compositional Zero-Shot Learning
相对合适
1.Imaginary-Connected Embedding in ComplexSpace for Unseen Attribute-Object Discrimination
摘要:组合式零样本学习(Compositional Zero-Shot Learning, CZSL)旨在识别已见原语的全新组合。先前的研究尝试了单独学习原语(非连接)或在组合中建立它们之间的依赖关系(全连接)。相比之下,人类对组合的理解与上述方法不同,因为人类具有对这些原语进行组合感知适应的能力,而不是通过上述方法刻板地推断它们。然而,在实数空间的局限内发展类似于人类认知的组合理解是具有挑战性的。这源于基于实数空间方法的局限性,这些方法通常使用三种独立的度量来分类属性、对象和组合,而没有建立直接的动态连接。为了应对这一挑战,我们将CZSL的距离度量方案扩展到包含复数空间,以统一独立的度量,并在复数空间中建立一个虚连接的嵌入,以模拟人类对属性的理解。为了实现这种表示,我们引入了一个创新的基于视觉偏好的属性提取模块,该模块根据对象原型选择性地提取属性。因此,我们能够在训练和推理中融入相位信息,作为属性-对象依赖的度量,同时保留原语的独立获取。我们在三个基准数据集上评估了我们提出方法的有效性,展示了其与基线方法的优越性。我们的代码可在 https://github.com/LanchJL/IMAX 获得。
要解决的问题:
1. 本文想要解决的问题:
本文旨在解决 组合零样本学习 (CZSL) 问题,即识别由已见属性和对象组成的新组合。CZSL 的挑战在于属性和对象之间存在复杂的相互影响,而传统的非连接和完全连接方法无法有效处理这种动态关系。
2. 解决该问题的方法:
本文提出了 IMAX (IMAginary-Connected Embedding in CompleX Space for Unseen Attribute-Object Discrimination) 方法,该方法通过以下步骤解决 CZSL 问题:
- 视觉特征分解: 使用 AGV (Attention-Guided Visual Decoupler) 和 OGA (Object-Guided Attribute Extraction) 模块分别从图像中分解出属性和对象的特征。
- 复数空间嵌入: 将属性和对象的特征嵌入到复数空间,并建立虚连接嵌入,将属性视为与对象关联的虚数条件。
- 属性-对象依赖关系建模: 利用相位信息来度量属性和对象之间的依赖关系。
- 未见类泛化: 构建基于亲和力的伪分布 (APD) 来指导模型对未见类的泛化。
3. 方法的具体原理: - AGV 模块: 利用卷积核和通道激活模块,对图像进行注意力机制,突出与属性和对象相关的区域,从而分解视觉特征。
- OGA 模块: 利用对象原型计算视觉特征的标准差,从而提取属性特征,并利用局部注意力信息进行融合。
- 虚连接嵌入: 将属性特征转换为虚数,与对象特征组合成复数向量,更好地模拟人类对属性的认知。
- 相位信息: 利用相位信息来度量属性和对象之间的依赖关系,并用于评估组合的可行性。
- APD: 利用组合之间的亲和力构建伪分布,指导模型对未见类的泛化。
2.Simple Primitives With Feasibility- and Contextuality-Dependence for Open-World Compositional Zero-Shot Learning
开放世界组合式零样本学习(Open-World Compositional Zero-Shot Learning, OW-CZSL)的任务是从所有可能组合的图像中识别新颖的状态-对象组合,其中在训练阶段这些新颖组合是缺失的。由于可能组合的数量极大,传统方法的性能会显著下降。一些最近的工作考虑简单原语(即状态和对象)是独立的,并且分别预测它们以减少数量。然而,这忽略了状态、对象和组合之间的强烈依赖关系。在本文中,我们通过可行性和情境性来建模这种依赖关系。可行性依赖指的是组合的不平等可行性,例如,在现实世界中,“毛茸茸”的属性与“猫”组合比与“建筑”组合更为可行。情境性依赖代表了图像中的情境差异,例如,猫在干燥或湿润时展现出多样的外观。我们设计了语义注意力(Semantic Attention, SA)来捕捉可行性语义,以减轻不可能的预测,这是由简单原语之间的视觉相似性驱动的。我们还提出了生成式知识解耦(Knowledge Disentanglement, KD),将图像解耦为无偏表示,从而减轻情境偏差。此外,我们以兼容的方式补充了独立组合概率模型,学习了可行性和情境性。在实验中,我们展示了在三个基准数据集上,我们的SA和KD引导的简单原语(SA-and-kD-guided Simple Primitives, SAD-SP)方法具有优越或竞争性的性能。
1. 本文想要解决的问题:
本文主要解决的是开放世界组合零样本学习(OW-CZSL)中的问题。OW-CZSL的目标是在所有可能的组合中识别图像中的新状态-对象组合,而这些新组合在训练阶段是不存在的。由于可能的组合数量庞大,传统的OW-CZSL方法性能会显著下降。
2. 本文提出的方法:
为了解决这个问题,本文提出了一个名为“语义注意力与知识解耦引导的简单基元”(SAD-SP)的统一模型。该模型通过以下三个分支来实现:
- 简单基元 (SP): 学习独立的状态和对象概率分布,这是传统的OW-CZSL方法的基础。
- 语义注意力 (SA): 通过语义注意力机制学习简单基元之间的语义关系,并推断组合的可行性,从而减少不可行组合的影响。
- 知识解耦 (KD): 使用生成对抗网络将图像解耦成无偏特征表示,以减轻语境偏差对模型的影响。
3. 方法的具体原理:
- 简单基元 (SP): SP模块通过提取器将图像特征表示为状态和对象特征,然后分别预测状态和对象的概率,最后将两者相乘得到组合概率。
- 语义注意力 (SA): SA模块通过对象注意力 (foa) 和状态注意力 (fsa) 学习状态和对象之间的语义关系,并计算组合的可行性概率,从而为组合概率提供辅助信息。例如,如果一个图像包含了一只老虎,SA模块会倾向于将“条纹”分配给“湿”的概率较高,因为老虎和条纹在视觉上更相似。
- 知识解耦 (KD): KD模块使用生成器将图像解耦成无偏特征表示,并使用判别器和分类器监督生成器学习目标类别信息,从而得到无偏的特征表示,减轻语境偏差的影响。例如,KD模块会学习一个不包含任何对象信息的“条纹”特征表示,以便更准确地识别不同物种上的条纹。
3.C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition
组合动作由动态(动词)和静态(对象)概念组成。人类可以轻松地使用学到的概念识别未见过的组合。对于机器来说,解决这样的问题需要一个模型来识别由先前观察到的动词和对象组成的未见动作,因此需要所谓的组合泛化能力。为了促进这一研究,我们提出了一个新颖的零样本组合动作识别(Zero-Shot Compositional Action Recognition, ZS-CAR)任务。为了评估这个任务,我们在广泛使用的Something-Something V2数据集基础上构建了一个新的基准,名为Something-composition(Sth-com)。我们还提出了一种新颖的组件到组合(Component-to-Composition, C2C)学习方法来解决新的ZS-CAR任务。C2C包括一个独立的组件学习模块和一个组合推理模块。最后,我们设计了一种增强的训练策略来应对在见过和未见组合之间组件变化的挑战,并处理学习见过和未见动作之间的微妙平衡。实验结果表明,所提出的框架显著超越了现有的组合泛化方法,并设定了新的技术水平。新的Sth-com基准和代码可在 https://github.com/RongchangLi/ZSCAR_C2C 获得。
1. 本文想要解决什么问题?
本文想要解决零样本组合动作识别 (ZS-CAR) 问题。ZS-CAR 要求模型能够识别由已观察到的动词和物体组成的未见过的动作类别。这需要模型具备组合泛化能力,即理解动态和静态概念,并将其泛化到新的组合中。
2. 提出了什么方法解决该问题?
本文提出了组件到组合 (C2C) 学习方法来解决 ZS-CAR 任务。C2C 包括两个模块:
- 独立组件学习模块:分别学习动词和物体的语义原型,并计算输入视频中动词和物体的得分。
- 组合到组件学习模块:利用动词和物体的得分以及原型,通过动态路径和静态路径推断动作得分,并进行结果融合。
3. 方法的具体原理?
C2C 的原理类似于人类的组合过程:
- 独立观察组件:C2C 首先分别学习动词和物体的语义原型,并计算输入视频中动词和物体的得分。
- 评估组件兼容性:C2C 通过动态路径和静态路径评估不同动词和物体组合的兼容性,并计算动作得分。
- 组装单元:C2C 将动词和物体组装成动作,并输出最终的动作得分。
C2C 还设计了增强的训练策略,以应对 ZS-CAR 任务中的挑战: - 最小化视觉特征中的虚假信息:通过 Hilbert-Schmidt 独立准则 (HSIC) 损失,减少动词和物体特征中与识别无关的虚假信息,提高泛化能力。
- 平衡学习已见和未见动作:通过 CutMix 数据增强和新的动作损失,同时增强学习已见和未见动作,避免模型过度关注已见动作,从而提高泛化能力。
4.Prompting Language-Informed Distribution for Compositional Zero-Shot Learning
摘要。组合式零样本学习(Compositional Zero-Shot Learning, CZSL)任务旨在识别未见过的组合式视觉概念,例如切片番茄,其中模型仅从见过的组合中学习,例如切片土豆和红色番茄。得益于在大型预训练的视觉语言模型(如CLIP)上的提示调整,最近的文献显示出比传统基于视觉的方法更令人印象深刻的CZSL性能。然而,现有基于CLIP的CZSL文献并未妥善处理影响未见组合泛化的关键方面,包括类上下文的多样性和信息性,以及视觉原语之间的纠缠,即状态和对象。在本文中,我们提出了一个通过提示语言信息分布(即PLID)来解决CZSL任务的模型。具体来说,PLID利用预训练的大型语言模型(LLM)来(i)构建多样化和信息丰富的语言信息类分布,以及(ii)增强类嵌入的组合性。此外,提出了一种视觉-语言原语分解(Visual-Language Primitive Decomposition, VLPD)模块,以动态融合来自组合空间和原语空间的分类决策。与现有的软提示、硬提示或分布提示文献正交,我们的方法主张提示LLM支持的类分布,从而实现更好的零样本泛化。在MIT-States、UT-Zappos和C-GQA数据集上的实验结果表明,PLID的性能优于先前的方法。我们的代码和模型已发布:https://github.com/Cogito2012/PLID。
1. 本文想要解决什么问题?
本文主要针对组合零样本学习(CZSL)任务,该任务旨在识别未见过的组合视觉概念,例如“切片西红柿”,而模型只从已见过的组合中进行学习,例如“切片土豆”和“红色西红柿”。
现有的基于CLIP的CZSL方法存在以下问题:
- 提示的多样性和信息量不足: 传统的硬提示模板缺乏多样性,无法捕捉到细粒度视觉数据的内在差异;软提示学习虽然能够学习多个提示,但缺乏语言信息量,限制了其在细粒度类别上的性能。
- 视觉原语之间的纠缠: 现有的方法没有很好地解决视觉原语(状态和对象)之间的纠缠问题,导致难以学习可分解的视觉表示,限制了组合泛化能力。
2. 提出了什么方法解决该问题?
本文提出了一种名为PLID(Prompting Language-Informed Distribution)的CZSL方法,旨在通过提示语言信息分布来解决上述问题。
3. 方法的具体原理?
PLID的主要思想是利用预训练的大型语言模型(LLM)生成每个组合类别的句子级描述,并学习提示这些语言信息分布,使其与图像数据对齐。具体步骤如下: - 组合类别描述生成: 利用LLM生成每个组合类别的多个句子级描述,例如“这张图片展示了一盘整齐排列的薄薄切片的土豆”。
- 语言信息分布建模: 利用CLIP的文本编码器将描述嵌入,并学习提示这些嵌入的分布,使其与图像特征对齐。
- 视觉语言原语分解(VLPD): 将图像特征分解为简单的状态和对象特征,并学习这些原语级别的分类器。
- 组合融合: 将直接学习的组合类别预测和重新组合的预测进行融合,以获得最终的分类结果。
PLID方法具有以下优势: - 多样性和信息量: 通过LLM生成的句子级描述,PLID能够学习到具有多样性和信息量的类别表示,从而更好地区分组合类别。
- 分解能力: VLPD模块能够将图像特征分解为简单的状态和对象特征,从而更好地学习可分解的视觉表示,提高组合泛化能力。
- 融合策略: 通过融合直接学习和重新组合的预测,PLID能够获得更鲁棒的分类结果。
5.
czsl挑战:
1.挑战主要在于属性和对象的纠缠,这在不同属性-对象组合中产生了变化多端的上下文性。因此,原语的基本语义意义高度依赖于彼此,导致巨大的视觉多样性,这阻碍了对新颖概念的识别
属性与对象纠缠提太深,无法学习到独立的属性/对象特征,当网络预测一张图片【毛茸茸的小猫】预测其种类是否为猫时,会在一定程度上判断是否有【毛茸茸】这个属性,如果有,网络判断对象种类为猫,如果没有,可能会产生错误的预测。
2.即使是同样的属性,但在不同的属性-对象组合上有巨大的差异,例如[wet cat]与【wet apple],尽管都具有wet这个属性,但视觉的表现天差地别,所以必须根据不同的物体,实时地调整属性原型,调整后的原型具有上下文
本文作者:seekwhale13
本文链接:https://www.cnblogs.com/seekwhale13/p/18613439
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步