摘要: 并行文本世界中的LLM训练的多模态Agent 虽然大型语言模型(LLM)在模拟文本世界中表现出色,但在没有视觉或音频信号等其他模态感知的情况下,它们很难与更现实的世界互动。尽管视觉语言模型(VLM)集成了LLM模块(1)与静态图像特征对齐,以及(2)可能具有世界动态的先验知识(如在文本世界中所示), 阅读全文
posted @ 2024-05-30 04:36 吴建明wujianming 阅读(46) 评论(0) 推荐(0) 编辑