并行文本世界中的LLM训练的多模态Agent
并行文本世界中的LLM训练的多模态Agent
虽然大型语言模型(LLM)在模拟文本世界中表现出色,但在没有视觉或音频信号等其他模态感知的情况下,它们很难与更现实的世界互动。尽管视觉语言模型(VLM)集成了LLM模块(1)与静态图像特征对齐,以及(2)可能具有世界动态的先验知识(如在文本世界中所示),但它们尚未在具体的视觉世界中进行训练,因此无法与其动态对齐。另一方面,在没有专家指导的情况下,在复杂的视觉世界中训练具体化的代理往往具有挑战性且效率低下。在本文中,使用在平行文本世界中表现出色的LLM代理来训练生活在视觉世界中的VLM代理。具体来说,提取文本世界任务中LLM的反映结果(通过分析错误改进的动作),以在视觉世界的相同任务上微调VLM,从而使嵌入式多模式代理(EMMA)快速适应视觉世界的动态。两个平行世界之间的这种跨模态模仿学习是通过一种新颖的DAgger DPO算法实现的,使EMMA能够在没有LLM专家任何进一步指导的情况下推广到广泛的新任务中。对ALFWorld基准的各种任务的广泛评估突出了EMMA相对于基于SOTA VLM的代理的优越性能,例如,成功率提高了20%-70%。
图1:ALFWorld视觉环境中三种基于VLM的代理的比较。给定任务指令和当前步骤观察作为输入,VLM代理预计将预测一个动作,例如“进入机柜1”,以完成任务。(a)GPT-4V(视觉)。(b) InstructionBLIP通过在视觉模拟器中由基于规则的专家在静态演示数据集上进行行为克隆来进行微调。(c) 我们的化身多模式
图1:ALFWorld视觉环境中三种基于VLM的代理的比较。给定任务指令和当前步骤观察作为输入,VLM代理预计将预测一个动作,例如“进入机柜1”,以完成任务。
(a)GPT-4V(视觉)。(b) InstructionBLIP通过在视觉模拟器中由基于规则的专家在静态演示数据集上进行行为克隆来进行微调。(c) 我们的化身多模式代理(EMMA)通过从LLM专家那里进行的跨模式交互式模仿学习进行训练。
图2:为两个平行世界生成的任务示例。一个在视觉世界中的VLM代理和一个在文本世界中的LLM代理,作为家用机器人被指示清洁苹果,然后将其放入冰箱。放大查看更多详细信息。
图3:LLM专家通过跨模态模仿学习训练的多模态代理(EMMA)。EMMA将文本任务指令和像素观测作为其每一步的输入状态,以使用VLM生成动作序列。然后,我们将每个像素观察转换为文本等价物,作为LLM专家的上下文,以产生改进的动作供EMMA模仿。
参考文献链接
https://arxiv.org/pdf/2311.16714
人工智能芯片与自动驾驶