The Blog of Weihang|

WeihangZhang

园龄:1年5个月粉丝:0关注:4

AutoGLM: Autonomous Foundation Agents for GUIs
摘要: AutoGLM: 针对Web和手机,基于ChatGLM,具体细节并不清楚。 主要内容 提出AUTOGLM,集成了一套全面的技术和基础设施,以创建适合用户交付的可部署代理系统。首先,为GUI控制设计合适的"intermediate interface"是至关重要的,可以实现规划和定位的分离。其次,开发
5
0
0
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
摘要: SeeClick: screen shot + VLM 实现agent, 提出了ScreenSpot数据集。 主要内容 提出SeeClick方法,仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Clic
6
0
0
REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
摘要: ReAct:结合推理(COT)和行动(动作生成)。 ReAct 主要内容 将COT方法与ACT方法结合起来,引入了 ReAct,这是一种新的基于提示的范式,旨在将推理和行动在语言模型中协同起来,以解决通用任务。 展示了在少样本学习设置中,ReAct 相较于仅进行推理或动作生成的先前方法的优势。 系统
12
0
0
vim 配置
摘要: vim 配置 Vim的终极配置方案,完美的写代码界面! ——.vimrc_vim配置-CSDN博客 git clone https://github.com/VundleVim/Vundle.vim.git ~/.vim/bundle/Vundle.vim 1 " 显示行号 2 set number
2
0
0
CogAgent: A Visual Language Model for GUI Agents
摘要: CogAgent: 利用VLM操作GUI。 官方技术报告 主要内容 提出了一个18B的VLM模型CogAgent(CogVLM的新版本),旨在提高对于GUI的理解、导航和交互能力。利用高分辨率和低分辨率编码器适应不同分辨率的输入,在9个VQA benchmarks上取得了sota。同时,CogAge
57
0
0
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
摘要: InternVL1.5: 更强的视觉编码器,动态处理高分辨率图像,高质量的双语数据集。 主要内容 对标商业模型,提出InternVL1.5。更强的视觉编码器(InternViT-6B),动态处理高分辨率图像(将图像分成448*448的tails,最高支持4K分辨率),高质量的双语数据集(显著提高了O
6
0
0
常用图像增强算法(MATLAB实现)
摘要: 1 引言 图像增强是指按照某种特定的需求,突出图像中有用的信息,去除或者削弱无用的信息。图像增强的目的是使处理后的图像更适合人眼的视觉特性或者易于机器识别。在医学成像、遥感成像、人物摄影等领域,图像增强技术都有着广泛的应用。图像增强同时可以作为目标识别,目标跟踪,特征点匹配,图像融合,超分辨重构等图
70
0
0
深色
回顶
收起
点击右上角即可分享
微信分享提示