摘要: IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model 故事:现在的LVLM只能处理单场景,跨场景中关联实体的能力不行。比如电影中同一个角色在不同场景中出现,现有的LVLM不能把相同角色合并。所以本文 阅读全文
posted @ 2024-11-29 16:33 SiriusRen 阅读(4) 评论(0) 推荐(0) 编辑