Transformers--4-37-中文文档-四十二-

Transformers 4.37 中文文档（四十二）

原文：huggingface.co/docs/transformers

CLIP

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/clip

概述

CLIP 模型是由 Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、Gretchen Krueger、Ilya Sutskever 在从自然语言监督中学习可转移的视觉模型中提出的。CLIP（对比语言-图像预训练）是一个在各种（图像，文本）对上训练的神经网络。它可以用自然语言指导来预测最相关的文本片段，给定一个图像，而不直接为任务进行优化，类似于 GPT-2 和 3 的零-shot 能力。

论文的摘要如下：

最先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限的监督形式限制了它们的普遍性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从关于图像的原始文本中学习是一个有前途的替代方案，它利用了更广泛的监督来源。我们证明了预测哪个标题与哪个图像相匹配的简单预训练任务是一种有效且可扩展的方式，可以从互联网收集的 4 亿（图像，文本）对数据集上从头开始学习 SOTA 图像表示。预训练后，自然语言用于引用学习的视觉概念（或描述新的概念），从而实现模型对下游任务的零-shot 转移。我们通过在超过 30 个不同的现有计算机视觉数据集上进行基准测试来研究这种方法的性能，涵盖了 OCR、视频中的动作识别、地理定位以及许多类型的细粒度对象分类等任务。该模型对大多数任务进行了非平凡的转移，并且通常与完全监督的基线具有竞争力，而无需进行任何特定数据集的训练。例如，我们在 ImageNet 零-shot 上匹配了原始 ResNet-50 的准确率，而无需使用其训练的 128 万个训练示例中的任何一个。我们在此 https URL 上发布我们的代码和预训练模型权重。

这个模型是由valhalla贡献的。原始代码可以在这里找到。

使用提示和示例

CLIP 是一个多模态视觉和语言模型。它可用于图像文本相似性和零-shot 图像分类。CLIP 使用类似 ViT 的 transformer 获取视觉特征，并使用因果语言模型获取文本特征。然后将文本和视觉特征投影到具有相同维度的潜在空间。然后使用投影图像和文本特征之间的点积作为相似分数。

为了将图像输入 Transformer 编码器，每个图像被分割成一系列固定大小且不重叠的补丁，然后进行线性嵌入。添加一个[CLS]标记作为整个图像的表示。作者还添加了绝对位置嵌入，并将结果向量序列馈送到标准 Transformer 编码器。CLIPImageProcessor 可用于调整（或重新缩放）和规范化图像以供模型使用。

使用 CLIPTokenizer 对文本进行编码。CLIPProcessor 将 CLIPImageProcessor 和 CLIPTokenizer 包装成单个实例，用于同时对文本进行编码和准备图像。以下示例展示了如何使用 CLIPProcessor 和 CLIPModel 获取图像文本相似度分数。

>>> from PIL import Image
>>> import requests

>>> from transformers import CLIPProcessor, CLIPModel

>>> model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
>>> processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

资源

官方 Hugging Face 和社区（🌎标志）资源列表，帮助您开始使用 CLIP。

使用遥感（卫星）图像和标题微调 CLIP，一篇关于如何使用RSICD 数据集微调 CLIP 并比较由于数据增强而导致的性能变化的博客文章。
这个示例脚本展示了如何使用预训练的视觉和文本编码器训练类似 CLIP 的视觉-文本双编码器模型，使用COCO 数据集。

图像到文本

使用预训练的 CLIP 进行推理，使用波束搜索进行图像字幕生成的笔记本。🌎

图像检索

使用预训练的 CLIP 进行图像检索并计算 MRR（平均倒数排名）分数的笔记本。🌎
关于图像检索和显示相似度分数的笔记本。🌎
使用 Multilingual CLIP 将图像和文本映射到相同向量空间的笔记本。🌎
关于如何在Unsplash和TMBD数据集上运行语义图像搜索的 CLIP 的笔记本。🌎

可解释性

关于如何可视化输入标记和图像段之间相似性的笔记本。🌎

如果您有兴趣提交资源以包含在此处，请随时提交拉取请求，我们将进行审核。资源应该尽可能展示新内容，而不是重复现有资源。

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-四十二-

Transformers 4.37 中文文档（四十二）

CLIP

概述

使用提示和示例

资源

CLIPConfig

class transformers.CLIPConfig

from_text_vision_configs

CLIPTextConfig

class transformers.CLIPTextConfig

CLIPVisionConfig

class transformers.CLIPVisionConfig

CLIPTokenizer

class transformers.CLIPTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

CLIPTokenizerFast

class transformers.CLIPTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

CLIPImageProcessor

class transformers.CLIPImageProcessor

preprocess

CLIPFeatureExtractor

class transformers.CLIPFeatureExtractor

CLIPProcessor

class transformers.CLIPProcessor

批量解码

解码

CLIPModel

class transformers.CLIPModel

前向

get_text_features

get_image_features

CLIPTextModel

class transformers.CLIPTextModel

forward

CLIPTextModelWithProjection

class transformers.CLIPTextModelWithProjection

forward

CLIPVisionModelWithProjection

class transformers.CLIPVisionModelWithProjection

forward

CLIPVisionModel

class transformers.CLIPVisionModel

forward

TFCLIPModel

class transformers.TFCLIPModel

call

get_text_features

get_image_features

TFCLIPTextModel

class transformers.TFCLIPTextModel

call

TFCLIPVisionModel

class transformers.TFCLIPVisionModel

call

FlaxCLIPModel

class transformers.FlaxCLIPModel

__call__

get_text_features

get_image_features

FlaxCLIPTextModel

class transformers.FlaxCLIPTextModel

__call__

FlaxCLIPTextModelWithProjection

class transformers.FlaxCLIPTextModelWithProjection

__call__

FlaxCLIPVisionModel

class transformers.FlaxCLIPVisionModel

__call__

CLIPSeg

概述

使用提示

资源

`class transformers.CLIPConfig`

`from_text_vision_configs`

`class transformers.CLIPTextConfig`

`class transformers.CLIPVisionConfig`

`class transformers.CLIPTokenizer`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

`class transformers.CLIPTokenizerFast`

`build_inputs_with_special_tokens`

`create_token_type_ids_from_sequences`

`class transformers.CLIPImageProcessor`

`preprocess`

`class transformers.CLIPFeatureExtractor`

`class transformers.CLIPProcessor`

`批量解码`

`解码`

`class transformers.CLIPModel`

`前向`

`get_text_features`

`get_image_features`

`class transformers.CLIPTextModel`

`forward`

`class transformers.CLIPTextModelWithProjection`

`forward`

`class transformers.CLIPVisionModelWithProjection`

`forward`

`class transformers.CLIPVisionModel`

`forward`

`class transformers.TFCLIPModel`

`call`

`get_text_features`

`get_image_features`

`class transformers.TFCLIPTextModel`

`call`

`class transformers.TFCLIPVisionModel`

`call`

`class transformers.FlaxCLIPModel`

`call`

`get_text_features`

`get_image_features`

`class transformers.FlaxCLIPTextModel`

`call`

`class transformers.FlaxCLIPTextModelWithProjection`

`call`

`class transformers.FlaxCLIPVisionModel`

`call`

`class transformers.CLIPSegConfig`

`from_text_vision_configs`

`class transformers.CLIPSegTextConfig`

`class transformers.CLIPSegVisionConfig`

`class transformers.CLIPSegProcessor`

`batch_decode`

`decode`

`class transformers.CLIPSegModel`

`forward`

`get_text_features`

`get_image_features`

`class transformers.CLIPSegTextModel`

`forward`

`class transformers.CLIPSegVisionModel`

`forward`

`class transformers.CLIPSegForImageSegmentation`

`forward`

`class transformers.ClvpConfig`

`from_sub_model_configs`

`class transformers.ClvpEncoderConfig`

`class transformers.ClvpDecoderConfig`

`class transformers.ClvpTokenizer`

`save_vocabulary`

`class transformers.ClvpFeatureExtractor`

`call`

`class transformers.ClvpProcessor`

`call`

`decode`

`batch_decode`

`class transformers.ClvpModelForConditionalGeneration`

`forward`

`generate`