2024 年 11月 29 日随笔档案 - SiriusRen

2024年11月29日

摘要： IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model 故事：现在的LVLM只能处理单场景，跨场景中关联实体的能力不行。比如电影中同一个角色在不同场景中出现，现有的LVLM不能把相同角色合并。所以本文阅读全文

posted @ 2024-11-29 16:33 SiriusRen 阅读(4) 评论(0) 推荐(0) 编辑

SiriusRen

公告