2024 年 1月 5 日随笔档案 - CV技术指南（公众号）

2024年1月5日

Github揽获3k+星！清华开源CogAgent：基于多模态大模型的GUI Agent

摘要：前言本文提出了视觉 GUI Agent，使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而做出规划和决策。对此，我们研发了多模态大模型 CogAgent，可接受 1120×1120 的高分辨率图像输入，不仅提升了通用视觉理解能力，还具备强大的 GUI Agent 能力。本文转载自阅读全文

posted @ 2024-01-05 17:30 CV技术指南（公众号）阅读(605) 评论(0) 推荐(0) 编辑

公告