2024 年 5月 30 日随笔档案 - 吴建明wujianming

2024年5月30日

摘要：并行文本世界中的LLM训练的多模态Agent 虽然大型语言模型（LLM）在模拟文本世界中表现出色，但在没有视觉或音频信号等其他模态感知的情况下，它们很难与更现实的世界互动。尽管视觉语言模型（VLM）集成了LLM模块（1）与静态图像特征对齐，以及（2）可能具有世界动态的先验知识（如在文本世界中所示），阅读全文

posted @ 2024-05-30 04:36 吴建明wujianming 阅读(46) 评论(0) 推荐(0) 编辑

吴建明

公告