The Blog of Weihang |

WeihangZhang

园龄:1年5个月粉丝:0关注:4

随笔分类 -  论文

AutoGLM: Autonomous Foundation Agents for GUIs
摘要:AutoGLM: 针对Web和手机,基于ChatGLM,具体细节并不清楚。 主要内容 提出AUTOGLM,集成了一套全面的技术和基础设施,以创建适合用户交付的可部署代理系统。首先,为GUI控制设计合适的"intermediate interface"是至关重要的,可以实现规划和定位的分离。其次,开发
5
0
0
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
摘要:SeeClick: screen shot + VLM 实现agent, 提出了ScreenSpot数据集。 主要内容 提出SeeClick方法,仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Clic
6
0
0
CogAgent: A Visual Language Model for GUI Agents
摘要:CogAgent: 利用VLM操作GUI。 官方技术报告 主要内容 提出了一个18B的VLM模型CogAgent(CogVLM的新版本),旨在提高对于GUI的理解、导航和交互能力。利用高分辨率和低分辨率编码器适应不同分辨率的输入,在9个VQA benchmarks上取得了sota。同时,CogAge
57
0
0
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
摘要:InternVL1.5: 更强的视觉编码器,动态处理高分辨率图像,高质量的双语数据集。 主要内容 对标商业模型,提出InternVL1.5。更强的视觉编码器(InternViT-6B),动态处理高分辨率图像(将图像分成448*448的tails,最高支持4K分辨率),高质量的双语数据集(显著提高了O
6
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起