随笔 - 934, 文章 - 0, 评论 - 247, 阅读 - 344万

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

PaliGemma 模型选择

Posted on   蝈蝈俊  阅读(136)  评论(0编辑  收藏  举报

PaliGemma 是 Google 开发的轻量级的具有多模态功能的视觉语言模型 (VLM)。

https://ai.google.dev/gemma/docs/paligemma?hl=zh-cn

Google 提供了三种可下载的模型类型:

  • PT checkpoints 预训练模型;
  • Mix checkpoints 针对各种任务已经微调过的通用预训练模型;
  • FT checkpoints 针对特定学术数据集微调的专用模型;

它们的区别如下:

一、PT checkpoints

预训练模型,可以进行下游任务的微调。

可以看到的模型有下面这些:

google/paligemma-3b-pt-224
google/paligemma-3b-pt-448
google/paligemma-3b-pt-896

google/paligemma-3b-pt-224-jax
google/paligemma-3b-pt-448-jax
google/paligemma-3b-pt-896-jax

google/paligemma-3b-pt-224-keras
google/paligemma-3b-pt-448-keras
google/paligemma-3b-pt-896-keras

名字中参数的解释如下:

输入分辨率

  • 224:指模型使用 224 x 224 像素的输入图像。
  • 448:指模型使用 448 x 448 像素的输入图像。
  • 896:指模型使用 896 x 896 像素的输入图像。

框架

  • 无后缀(默认):一般情况下,这是基于 PyTorch 框架的模型。
  • jax:表示模型是使用 JAX 框架实现的。JAX 是一个用于高性能机器学习研究的库,允许使用 NumPy 代码并且具有自动微分和硬件加速能力。
  • keras:表示模型是使用 Keras API 实现的。Keras 是一个高层神经网络 API,能够运行在 TensorFlow、CNTK、或 Theano 之上,主要用于快速原型设计。

这个系列的模型是预训练模型,不能直接拿来使用。

二、Mix checkpoints

经过多任务微调的通用模型。
适用于通用的自由文本提示推理。

直接拿来用的就是这个系列的模型,其它模型都需要先微调,并测试输出,然后再将其部署给最终用户。

可以看到的模型有下面这些:

google/paligemma-3b-mix-224
google/paligemma-3b-mix-448

google/paligemma-3b-mix-224-jax
google/paligemma-3b-mix-448-jax

google/paligemma-3b-mix-448-keras
google/paligemma-3b-mix-224-keras

参数区别同上。

三、FT checkpoints

针对特定学术数据集微调的专用模型。

https://www.kaggle.com/models/google/paligemma-ft

只在特定场景下效果好,通用性并不佳。

比如下面这些模型:

  • paligemma-3b-ft-ai2d-224
  • paligemma-3b-ft-ai2d-448
  • paligemma-3b-ft-aokvqa-da-224
  • paligemma-3b-ft-aokvqa-da-448
  • paligemma-3b-ft-aokvqa-mc-224
  • paligemma-3b-ft-aokvqa-mc-448

其中参数含义如下:

  • ft 表示这是一个微调模型(fine-tuned model),相对于预训练模型(pretrained model),它已经在特定任务上进行了微调。

  • 每个模型名称末尾的数字(例如 224, 448, 896)表示输入图像的分辨率。

  • ai2d、aokvqa-mc 这些表示模型微调的任务或数据集。详细的看下面:

支持的模型微调数据集

AI2D

https://allenai.org/data/diagrams

说明图数据集,用于研究图表理解和相关问题解答。

  • paligemma-3b-ft-ai2d-224
  • paligemma-3b-ft-ai2d-448

A-OKVQA

https://allenai.org/project/a-okvqa/home
基于知识的视觉问答

MC 指 多选题 (Multiple-Choice)
DA 指 直接回答 (Direct-Answer)

  • paligemma-3b-ft-aokvqa-da-224
  • paligemma-3b-ft-aokvqa-da-448
  • paligemma-3b-ft-aokvqa-mc-224
  • paligemma-3b-ft-aokvqa-mc-448

COCO-35L

https://arxiv.org/pdf/2205.12522

多语言图像数据集

  • paligemma-3b-ft-coco35l-224
  • paligemma-3b-ft-coco35l-448

COCO captions

https://cocodataset.org/#home

对象检测、分割和字幕数据集。

  • paligemma-3b-ft-cococap-224
  • paligemma-3b-ft-cococap-448

DocVQA

https://www.docvqa.org/

文档视觉问答

  • paligemma-3b-ft-docvqa-224
  • paligemma-3b-ft-docvqa-448
  • paligemma-3b-ft-docvqa-896

GQA

图像场景问答

https://cs.stanford.edu/people/dorarad/gqa/about.html

  • paligemma-3b-ft-gqa-224
  • paligemma-3b-ft-gqa-448

Infographic VQA

视觉问答

https://openaccess.thecvf.com/content/WACV2022/papers/Mathew_InfographicVQA_WACV_2022_paper.pdf

  • paligemma-3b-ft-infovqa-224
  • paligemma-3b-ft-infovqa-448
  • paligemma-3b-ft-infovqa-896

NLVR2

https://lil.nlp.cornell.edu/nlvr/

视觉推理

  • paligemma-3b-ft-nlvr2-224
  • paligemma-3b-ft-nlvr2-448

OCR-VQA

https://ocr-vqa.github.io/
读取图像中的文本进行视觉问答。

  • paligemma-3b-ft-ocrvqa-224
  • paligemma-3b-ft-ocrvqa-448
  • paligemma-3b-ft-ocrvqa-896

OKVQA

https://okvqa.allenai.org/
知识视觉问答数据集

  • paligemma-3b-ft-okvqa-224
  • paligemma-3b-ft-okvqa-448

RefCOCO

https://arxiv.org/abs/1608.00272

用于引用表达理解和图像分割任务的数据集。它的全名是 Referring Expressions Comprehension。这个数据集的主要目的是评估模型在给定自然语言描述的情况下定位和识别图像中特定对象的能力。

  • paligemma-3b-ft-refcoco-seg-224
  • paligemma-3b-ft-refcoco-seg-448
  • paligemma-3b-ft-refcoco-seg-896

RSVQA

Remote Sensing VQA - Low Resolution (RSVQA LR)
低分辨率遥感图像
https://zenodo.org/records/6344334

  • paligemma-3b-ft-rsvqa-lr-224
  • paligemma-3b-ft-rsvqa-lr-448

Remote Sensing VQA - High Resolution (RSVQA HR)
高分辨率遥感图像
https://zenodo.org/records/6344367

  • paligemma-3b-ft-rsvqa-hr-224
  • paligemma-3b-ft-rsvqa-hr-448

SciCap

https://arxiv.org/abs/2110.11624

为图表生成说明文字数据集

  • paligemma-3b-ft-scicap-224
  • paligemma-3b-ft-scicap-448

ScienceQA

https://scienceqa.github.io/

收集自中小学科学课程,包含 21,208 个多模式多项选择科学问题。

  • paligemma-3b-ft-science-qa-224
  • paligemma-3b-ft-science-qa-448

Screen2words

https://arxiv.org/abs/2108.03353

移动用户界面数据集

  • paligemma-3b-ft-screen2words-224
  • paligemma-3b-ft-screen2words-448

SceneText VQA

https://arxiv.org/abs/1905.13648

场景文字视觉问答数据集

  • paligemma-3b-ft-stvqa-224
  • paligemma-3b-ft-stvqa-448
  • paligemma-3b-ft-stvqa-896

TallyQA

https://arxiv.org/abs/1810.12440

复杂的视觉问题计数数据集

  • paligemma-3b-ft-tallyqa-224
  • paligemma-3b-ft-tallyqa-448

TextCaps

用于对图像字幕任务中的阅读理解进行基准测试的数据集。

https://textvqa.org/textcaps/

  • paligemma-3b-ft-textcaps-224
  • paligemma-3b-ft-textcaps-448

TextVQA

https://textvqa.org/

基于图像中的文本对视觉推理进行基准测试的数据集。

  • paligemma-3b-ft-textvqa-224
  • paligemma-3b-ft-textvqa-448
  • paligemma-3b-ft-textvqa-896

VizWiz VQA

https://vizwiz.org/tasks-and-datasets/vqa/

回答盲人提出的视觉问题数据集。

  • paligemma-3b-ft-vizwizvqa-224
  • paligemma-3b-ft-vizwizvqa-448

VQAv2

https://visualqa.org/index.html

有关图像的开放式问题,每张图片至少 3 个问题(平均 5.4 个问题),每个问题 3 个看似合理(但可能不正确)的答案。

  • paligemma-3b-ft-vqav2-224
  • paligemma-3b-ft-vqav2-448

Widget Captioning

移动端的用户界面元素

https://arxiv.org/abs/2010.04295

  • paligemma-3b-ft-widgetcap-224
  • paligemma-3b-ft-widgetcap-448

选择总结

这三种模型的适用场景如下:

  • PT预训练模型,不能直接用,可作为微调的基础。

  • Mix模型适用于多种任务,具有较强的通用性。

  • FT模型专注于特定任务,在这些任务上表现优异。

相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
历史上的今天:
2021-07-23 余弦相似度
2021-07-23 余弦相似度Cosine Similarity相关计算公式
点击右上角即可分享
微信分享提示