Transformers--4-37-中文文档-四十七-

Transformers 4.37 中文文档（四十七）

原文：huggingface.co/docs/transformers

VipLlava

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/vipllava

概述

VipLlava 模型是由 Mu Cai、Haotian Liu、Siva Karthik Mustikovela、Gregory P. Meyer、Yuning Chai、Dennis Park、Yong Jae Lee 在《Making Large Multimodal Models Understand Arbitrary Visual Prompts》中提出的。

VipLlava 通过在训练过程中标记图像并使用自然提示（如“红色边界框”或“指向箭头”）与模型进行交互，增强了 Llava 的训练协议。

该论文的摘要如下：

尽管现有的大型视觉-语言多模态模型侧重于整体图像理解，但在实现特定区域理解方面存在明显差距。目前使用文本坐标或空间编码的方法通常无法提供用户友好的视觉提示界面。为了解决这一挑战，我们引入了一种能够解码任意视觉提示的新型多模态模型。这使用户可以直观地标记图像，并使用自然提示与模型进行交互，如“红色边界框”或“指向箭头”。我们的简单设计直接将视觉标记叠加在 RGB 图像上，消除了复杂区域编码的需求，同时在 Visual7W、PointQA 和 Visual Commonsense Reasoning 基准等区域理解任务上实现了最先进的性能。此外，我们提出了 ViP-Bench，一个全面的基准，用于评估模型在理解多维视觉提示方面的能力，促进该领域的未来研究。代码、数据和模型均可公开获取。

提示：

该架构与 llava 架构类似，只是多模态投影器采用一组连接的视觉隐藏状态，并在该模块上增加了一个 layernorm 层。
我们建议用户在计算批量生成时使用padding_side="left"，因为这会导致更准确的结果。只需确保在生成之前调用processor.tokenizer.padding_side = "left"。
请注意，该模型尚未明确训练以处理同一提示中的多个图像，尽管从技术上讲这是可能的，但您可能会遇到不准确的结果。
为了获得更好的结果，我们建议用户使用正确的提示格式提示模型：

A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n<prompt>###Assistant:

对于多轮对话:

A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n<prompt1>###Assistant: <answer1>###Human: <prompt2>###Assistant:

原始代码可在此处找到。

该模型由Younes Belkada贡献

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-四十七-

Transformers 4.37 中文文档（四十七）

VipLlava

概述

VipLlavaConfig

class transformers.VipLlavaConfig

VipLlavaForConditionalGeneration

class transformers.VipLlavaForConditionalGeneration

视觉编码器解码器模型

概述

从模型配置随机初始化 VisionEncoderDecoderModel。

从预训练的编码器和预训练的解码器初始化 VisionEncoderDecoderModel。

加载现有的 VisionEncoderDecoderModel 检查点并执行推理。

将 PyTorch checkpoint 加载到 TFVisionEncoderDecoderModel 中。

训练

VisionEncoderDecoderConfig

class transformers.VisionEncoderDecoderConfig

from_encoder_decoder_configs

VisionEncoderDecoderModel

class transformers.VisionEncoderDecoderModel

forward

from_encoder_decoder_pretrained

TFVisionEncoderDecoderModel

class transformers.TFVisionEncoderDecoderModel

call

from_encoder_decoder_pretrained

FlaxVisionEncoderDecoderModel

class transformers.FlaxVisionEncoderDecoderModel

__call__

from_encoder_decoder_pretrained

VisionTextDualEncoder

概述

VisionTextDualEncoderConfig

class transformers.VisionTextDualEncoderConfig

from_vision_text_configs

VisionTextDualEncoderProcessor

class transformers.VisionTextDualEncoderProcessor

batch_decode

decode

VisionTextDualEncoderModel

class transformers.VisionTextDualEncoderModel

forward

FlaxVisionTextDualEncoderModel

class transformers.FlaxVisionTextDualEncoderModel

__call__

TFVisionTextDualEncoderModel

class transformers.TFVisionTextDualEncoderModel

call

VisualBERT

概述

使用提示

VisualBertConfig

class transformers.VisualBertConfig

VisualBertModel

class transformers.VisualBertModel

forward

VisualBertForPreTraining

class transformers.VisualBertForPreTraining

forward

VisualBertForQuestionAnswering

class transformers.VisualBertForQuestionAnswering

forward

VisualBertForMultipleChoice

class transformers.VisualBertForMultipleChoice

VisualBertForVisualReasoning

class transformers.VisualBertForVisualReasoning

forward

VisualBertForRegionToPhraseAlignment

class transformers.VisualBertForRegionToPhraseAlignment

forward

X-CLIP

概述

资源

XCLIP 处理器

class transformers.XCLIPProcessor

batch_decode

decode

XCLIPConfig

`class transformers.VipLlavaConfig`

`class transformers.VipLlavaForConditionalGeneration`

`class transformers.VisionEncoderDecoderConfig`

`from_encoder_decoder_configs`

`class transformers.VisionEncoderDecoderModel`

`forward`

`from_encoder_decoder_pretrained`

`class transformers.TFVisionEncoderDecoderModel`

`call`

`from_encoder_decoder_pretrained`

`class transformers.FlaxVisionEncoderDecoderModel`

`call`

`from_encoder_decoder_pretrained`

`class transformers.VisionTextDualEncoderConfig`

`from_vision_text_configs`

`class transformers.VisionTextDualEncoderProcessor`

`batch_decode`

`decode`

`class transformers.VisionTextDualEncoderModel`

`forward`

`class transformers.FlaxVisionTextDualEncoderModel`

`call`

`class transformers.TFVisionTextDualEncoderModel`

`call`

`class transformers.VisualBertConfig`

`class transformers.VisualBertModel`

`forward`

`class transformers.VisualBertForPreTraining`

`forward`

`class transformers.VisualBertForQuestionAnswering`

`forward`

`class transformers.VisualBertForMultipleChoice`

`class transformers.VisualBertForVisualReasoning`

`forward`

`class transformers.VisualBertForRegionToPhraseAlignment`

`forward`

`class transformers.XCLIPProcessor`

`batch_decode`

`decode`

`class transformers.XCLIPConfig`

`from_text_vision_configs`

`class transformers.XCLIPTextConfig`

`class transformers.XCLIPVisionConfig`

`class transformers.XCLIPModel`

`forward`

`get_text_features`

`get_video_features`

`class transformers.XCLIPTextModel`

`forward`

`class transformers.XCLIPVisionModel`

`forward`

`class transformers.DecisionTransformerConfig`

`class transformers.DecisionTransformerGPT2Model`

`forward`

`class transformers.DecisionTransformerModel`

`forward`

`class transformers.TrajectoryTransformerConfig`

`class transformers.TrajectoryTransformerModel`

`forward`

`class transformers.AutoformerConfig`

`class transformers.AutoformerModel`

`forward`

`class transformers.AutoformerForPrediction`

`forward`

`class transformers.InformerConfig`

`class transformers.InformerModel`

`class transformers.InformerForPrediction`

`forward`

`class transformers.PatchTSMixerConfig`

`class transformers.PatchTSMixerModel`

`forward`

`class transformers.PatchTSMixerForPrediction`

`forward`