摘要: 前言 本文提出了视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而做出规划和决策。对此,我们研发了多模态大模型 CogAgent,可接受 1120×1120 的高分辨率图像输入,不仅提升了通用视觉理解能力,还具备强大的 GUI Agent 能力。 本文转载自 阅读全文
posted @ 2024-01-05 17:30 CV技术指南(公众号) 阅读(307) 评论(0) 推荐(0) 编辑