视觉任务的视觉语言模型研究综述

视觉任务的视觉语言模型研究综述

摘要——大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖于人群标记的数据,他们通常为每个视觉识别任务训练一个DNN,导致视觉识别范式既费力又耗时。为了应对这两个挑战,最近对视觉语言模型(VLM)进行了深入研究,该模型从互联网上几乎无限可用的网络级图像-文本对中学习丰富的视觉语言相关性,并使用单个VLM对各种视觉识别任务进行零样本预测。本文对各种视觉识别任务的视觉语言模型进行了系统综述,包括:
(1) 介绍视觉识别范式发展的背景;
(2) VLM的基础,总结了广泛采用的网络架构、预训练目标和下游任务;
(3) VLM预训练和评估中广泛采用的数据集;
(4) 现有VLM预训练方法、VLM迁移学习方法和VLM知识提取方法的回顾和分类;
(5) 对审查方法进行基准测试、分析和讨论;
(6) 未来VLM视觉识别研究中可能面临的几个研究挑战和潜在的研究方向。已在创建与此调查关联的项目https://github.com/jingyi0000/VLM调查
索引术语——视觉识别、视觉语言模型、预训练、迁移学习、知识提取、图像分类、对象检测、语义分割、深度神经网络、深度学习、大模型、大数据

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

参考文献链接

https://arxiv.org/pdf/

 

posted @   吴建明wujianming  阅读(216)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-05-31 LLVM IR类型系统结构分析
2022-05-31 CUDA技术体系分析
2021-05-31 智能驾驶操作系统OS
2021-05-31 自动驾驶QNX,Linux,Autosar概述
2020-05-31 多目标姿态估计
2020-05-31 数据标注的困境
2020-05-31 如何部署自动驾驶系统
点击右上角即可分享
微信分享提示