Transformers--4-37-中文文档-四十一-

Transformers 4.37 中文文档（四十一）

原文：huggingface.co/docs/transformers

AltCLIP

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/altclip

概述

AltCLIP 模型是由陈忠志、刘光、张博文、叶福龙、杨庆红、吴乐德在AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities中提出的。AltCLIP（改变 CLIP 中的语言编码器）是一个神经网络，训练于各种图像文本和文本文本对。通过用预训练的多语言文本编码器 XLM-R 替换 CLIP 的文本编码器，我们可以在几乎所有任务上获得与 CLIP 非常接近的性能，并扩展原始 CLIP 的能力，如多语言理解。

论文摘要如下：

在这项工作中，我们提出了一个概念简单且有效的方法来训练强大的双语多模态表示模型。从 OpenAI 发布的预训练多模态表示模型 CLIP 开始，我们将其文本编码器替换为预训练的多语言文本编码器 XLM-R，并通过包含教师学习和对比学习的两阶段训练模式来对齐两种语言和图像表示。我们通过对各种任务的评估验证了我们的方法。我们在一系列任务中取得了新的最先进表现，包括 ImageNet-CN、Flicker30k-CN 和 COCO-CN。此外，我们在几乎所有任务上与 CLIP 获得了非常接近的性能，表明可以简单地改变 CLIP 中的文本编码器以获得扩展能力，如多语言理解。

该模型由jongjyh贡献。

使用提示和示例

AltCLIP 的使用与 CLIP 非常相似，区别在于文本编码器。请注意，我们使用双向注意力而不是单向注意力，并且我们使用 XLM-R 中的[CLS]标记来表示文本嵌入。

AltCLIP 是一个多模态视觉和语言模型。它可用于图像文本相似度和零样本图像分类。AltCLIP 使用类似 ViT 的变压器来获取视觉特征，并使用双向语言模型来获取文本特征。然后将文本和视觉特征投影到具有相同维度的潜在空间中。然后使用投影图像和文本特征之间的点积作为相似分数。

为了将图像馈送到变压器编码器中，每个图像被分割成一系列固定大小且不重叠的补丁，然后进行线性嵌入。添加一个[CLS]标记作为整个图像的表示。作者还添加了绝对位置嵌入，并将结果向量序列馈送到标准变压器编码器。CLIPImageProcessor 可用于调整（或重新缩放）和规范化模型的图像。

AltCLIPProcessor 将 CLIPImageProcessor 和 XLMRobertaTokenizer 封装成一个单一实例，用于对文本进行编码和准备图像。以下示例展示了如何使用 AltCLIPProcessor 和 AltCLIPModel 获取图像文本相似度分数。

>>> from PIL import Image
>>> import requests

>>> from transformers import AltCLIPModel, AltCLIPProcessor

>>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP")
>>> processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

该模型基于CLIPModel，使用方式与原始的 CLIP 相同。

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-四十一-

Transformers 4.37 中文文档（四十一）

AltCLIP

概述

使用提示和示例

AltCLIPConfig

class transformers.AltCLIPConfig

from_text_vision_configs

AltCLIPTextConfig

class transformers.AltCLIPTextConfig

AltCLIPVisionConfig

class transformers.AltCLIPVisionConfig

AltCLIPProcessor

class transformers.AltCLIPProcessor

batch_decode

decode

AltCLIPModel

class transformers.AltCLIPModel

forward

get_text_features

get_image_features

AltCLIPTextModel

class transformers.AltCLIPTextModel

forward

AltCLIPVisionModel

class transformers.AltCLIPVisionModel

forward

BLIP

概述

资源

BlipConfig

class transformers.BlipConfig

from_text_vision_configs

BlipTextConfig

class transformers.BlipTextConfig

BlipVisionConfig

class transformers.BlipVisionConfig

BlipProcessor

class transformers.BlipProcessor

batch_decode

decode

BlipImageProcessor

class transformers.BlipImageProcessor

preprocess

BlipModel

class transformers.BlipModel

forward

get_text_features

BlipTextModel

class transformers.BlipTextModel

forward

BlipVisionModel

class transformers.BlipVisionModel

forward

BlipForConditionalGeneration

class transformers.BlipForConditionalGeneration

forward

BlipForImageTextRetrieval

class transformers.BlipForImageTextRetrieval

BlipForQuestionAnswering

class transformers.BlipForQuestionAnswering

forward

TFBlipModel

class transformers.TFBlipModel

call

get_text_features

get_image_features

TFBlipTextModel

class transformers.TFBlipTextModel

TFBlipVisionModel

class transformers.TFBlipVisionModel

call

TFBlipForConditionalGeneration

class transformers.TFBlipForConditionalGeneration

call

TFBlipForImageTextRetrieval

class transformers.TFBlipForImageTextRetrieval

call

`class transformers.AltCLIPConfig`

`from_text_vision_configs`

`class transformers.AltCLIPTextConfig`

`class transformers.AltCLIPVisionConfig`

`class transformers.AltCLIPProcessor`

`batch_decode`

`decode`

`class transformers.AltCLIPModel`

`forward`

`get_text_features`

`get_image_features`

`class transformers.AltCLIPTextModel`

`forward`

`class transformers.AltCLIPVisionModel`

`forward`

`class transformers.BlipConfig`

`from_text_vision_configs`

`class transformers.BlipTextConfig`

`class transformers.BlipVisionConfig`

`class transformers.BlipProcessor`

`batch_decode`

`decode`

`class transformers.BlipImageProcessor`

`preprocess`

`class transformers.BlipModel`

`forward`

`get_text_features`

`class transformers.BlipTextModel`

`forward`

`class transformers.BlipVisionModel`

`forward`

`class transformers.BlipForConditionalGeneration`

`forward`

`class transformers.BlipForImageTextRetrieval`

`class transformers.BlipForQuestionAnswering`

`forward`

`class transformers.TFBlipModel`

`call`

`get_text_features`

`get_image_features`

`class transformers.TFBlipTextModel`

`class transformers.TFBlipVisionModel`

`call`

`class transformers.TFBlipForConditionalGeneration`

`call`

`class transformers.TFBlipForImageTextRetrieval`

`call`

`class transformers.TFBlipForQuestionAnswering`

`call`

`class transformers.Blip2Config`

`from_vision_qformer_text_configs`

`class transformers.Blip2VisionConfig`

`class transformers.Blip2QFormerConfig`

`class transformers.Blip2Processor`

`batch_decode`

`class transformers.Blip2VisionModel`

`class transformers.Blip2QFormerModel`

`forward`

`class transformers.Blip2Model`

`forward`

`get_text_features`

`get_image_features`

`get_qformer_features`

`class transformers.Blip2ForConditionalGeneration`

`forward`

`generate`

`class transformers.BridgeTowerConfig`

`from_text_vision_configs`

`class transformers.BridgeTowerTextConfig`

`class transformers.BridgeTowerVisionConfig`

`class transformers.BridgeTowerImageProcessor`

`preprocess`

`class transformers.BridgeTowerProcessor`

`call`

`class transformers.BridgeTowerModel`

`forward`

`class transformers.BridgeTowerForContrastiveLearning`

`forward`

`class transformers.BridgeTowerForMaskedLM`

`forward`