会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
穷酸秀才大艹包
上海交通大学CS博士生
2024年6月8日
GLaMM : Pixel Grounding Large Multimodal Model
摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 大型多模态模型(Large Multimodal Model, LMM)将大语言模型扩展到视觉领域。最初的LMM使用整体图像和文本提示词来生成无定位的文本响应。最近,区域级LMM已被用于生成视觉定位响应。然而,它们仅限于
阅读全文
posted @ 2024-06-08 19:20 穷酸秀才大草包
阅读(33)
评论(0)
推荐(0)
编辑
导航
博客园
首页
新随笔
联系
订阅
管理
公告