视觉任务的视觉语言模型研究综述

视觉任务的视觉语言模型研究综述

摘要——大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖于人群标记的数据,他们通常为每个视觉识别任务训练一个DNN,导致视觉识别范式既费力又耗时。为了应对这两个挑战,最近对视觉语言模型(VLM)进行了深入研究,该模型从互联网上几乎无限可用的网络级图像-文本对中学习丰富的视觉语言相关性,并使用单个VLM对各种视觉识别任务进行零样本预测。本文对各种视觉识别任务的视觉语言模型进行了系统综述,包括:
(1) 介绍视觉识别范式发展的背景;
(2) VLM的基础,总结了广泛采用的网络架构、预训练目标和下游任务;
(3) VLM预训练和评估中广泛采用的数据集;
(4) 现有VLM预训练方法、VLM迁移学习方法和VLM知识提取方法的回顾和分类;
(5) 对审查方法进行基准测试、分析和讨论;
(6) 未来VLM视觉识别研究中可能面临的几个研究挑战和潜在的研究方向。已在创建与此调查关联的项目https://github.com/jingyi0000/VLM调查
索引术语——视觉识别、视觉语言模型、预训练、迁移学习、知识提取、图像分类、对象检测、语义分割、深度神经网络、深度学习、大模型、大数据

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

参考文献链接

https://arxiv.org/pdf/

 

posted @ 2024-05-31 03:48  吴建明wujianming  阅读(139)  评论(0编辑  收藏  举报