视觉任务的视觉语言模型研究综述

视觉任务的视觉语言模型研究综述

摘要——大多数视觉识别研究在深度神经网络（DNN）训练中严重依赖于人群标记的数据，他们通常为每个视觉识别任务训练一个DNN，导致视觉识别范式既费力又耗时。为了应对这两个挑战，最近对视觉语言模型（VLM）进行了深入研究，该模型从互联网上几乎无限可用的网络级图像-文本对中学习丰富的视觉语言相关性，并使用单个VLM对各种视觉识别任务进行零样本预测。本文对各种视觉识别任务的视觉语言模型进行了系统综述，包括：
（1）介绍视觉识别范式发展的背景；
（2） VLM的基础，总结了广泛采用的网络架构、预训练目标和下游任务；
（3） VLM预训练和评估中广泛采用的数据集；
（4）现有VLM预训练方法、VLM迁移学习方法和VLM知识提取方法的回顾和分类；
（5）对审查方法进行基准测试、分析和讨论；
（6）未来VLM视觉识别研究中可能面临的几个研究挑战和潜在的研究方向。已在创建与此调查关联的项目https://github.com/jingyi0000/VLM调查
索引术语——视觉识别、视觉语言模型、预训练、迁移学习、知识提取、图像分类、对象检测、语义分割、深度神经网络、深度学习、大模型、大数据

参考文献链接

https://arxiv.org/pdf/

posted @ 2024-05-31 03:48 吴建明wujianming 阅读(216) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· 综合、诊断和优化：迈向精细视觉语言理解

· 并行文本世界中的LLM训练的多模态Agent

· 2024年9月学习月报

· SimVLM: Simple Visual Language Model Pretraining with Weak Supervision 来自CMU&Google提出的弱监督极简VLP模型

· 论文阅读-ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2023-05-31 LLVM IR类型系统结构分析
2022-05-31 CUDA技术体系分析
2021-05-31 智能驾驶操作系统OS
2021-05-31 自动驾驶QNX，Linux，Autosar概述
2020-05-31 多目标姿态估计
2020-05-31 数据标注的困境
2020-05-31 如何部署自动驾驶系统

公告

昵称：吴建明wujianming
园龄： 7年5个月
粉丝： 532
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:云计算服务器技术市场分析
Super Pi linux工具可以提供下吗？网上包括官方的都没法在centos、ubuntu os下跑，

xuxu8511@163.com 多谢。
--xu111122
2. Re:RISC-V指令列表分析
jalr中的14到12位应该为000而不是010吧
--洛天V
3. Re:《LLVM编译器原理与实践》新书推荐（已出版）
已买，学习中，支持博主
--tieyan
4. Re:NPU与超异构计算杂谈
好文章，很详细的对异构做了Overview！感谢大佬🫡
--kaiZH
5. Re:《LLVM编译器原理与实践》新书推荐（已出版）
这本书中对于LLVM垃圾回收机制statepoint有做研究吗？或者博主有推荐的资料吗？官网的资料确实比较晦涩难懂而且没有案例。
--wingrez