会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
CV技术指南(微信公众号)
博客园
首页
新随笔
联系
订阅
管理
2024年1月5日
Github揽获3k+星!清华开源CogAgent:基于多模态大模型的GUI Agent
摘要: 前言 本文提出了视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而做出规划和决策。对此,我们研发了多模态大模型 CogAgent,可接受 1120×1120 的高分辨率图像输入,不仅提升了通用视觉理解能力,还具备强大的 GUI Agent 能力。 本文转载自
阅读全文
posted @ 2024-01-05 17:30 CV技术指南(公众号)
阅读(605)
评论(0)
推荐(0)
编辑
公告