会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
CV技术指南(微信公众号)
博客园
首页
新随笔
联系
订阅
管理
2023年11月30日
北京大学 | Video-LLaVA视觉语言大模型:统一输入,同时处理图片和视频数据
摘要: 前言 北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中,该模型展现出了出色的性能,在多个评估榜单中名列前茅,尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注如何将LLM的输入统一起
阅读全文
posted @ 2023-11-30 18:53 CV技术指南(公众号)
阅读(724)
评论(0)
推荐(0)
编辑
公告