2023 年 11月 30 日随笔档案 - CV技术指南（公众号）

2023年11月30日

北京大学 | Video-LLaVA视觉语言大模型：统一输入，同时处理图片和视频数据

摘要：前言北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中，该模型展现出了出色的性能，在多个评估榜单中名列前茅，尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注如何将LLM的输入统一起阅读全文

posted @ 2023-11-30 18:53 CV技术指南（公众号）阅读(724) 评论(0) 推荐(0) 编辑

公告