Transformers--4-37-中文文档-十九-

Transformers 4.37 中文文档（十九）

原文：huggingface.co/docs/transformers

GPT Neo

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/gpt_neo

概述

GPTNeo 模型是由 Sid Black、Stella Biderman、Leo Gao、Phil Wang 和 Connor Leahy 在EleutherAI/gpt-neo存储库中发布的。它是一个类似于 GPT2 的因果语言模型，训练于Pile数据集。

该架构类似于 GPT2，只是 GPT Neo 在每个其他层中使用窗口大小为 256 的本地注意力。

此模型由valhalla贡献。

使用示例

generate()方法可用于使用 GPT Neo 模型生成文本。

>>> from transformers import GPTNeoForCausalLM, GPT2Tokenizer

>>> model = GPTNeoForCausalLM.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> tokenizer = GPT2Tokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")

>>> prompt = (
...     "In a shocking finding, scientists discovered a herd of unicorns living in a remote, "
...     "previously unexplored valley, in the Andes Mountains. Even more surprising to the "
...     "researchers was the fact that the unicorns spoke perfect English."
... )

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids

>>> gen_tokens = model.generate(
...     input_ids,
...     do_sample=True,
...     temperature=0.9,
...     max_length=100,
... )
>>> gen_text = tokenizer.batch_decode(gen_tokens)[0]

结合 GPT-Neo 和 Flash Attention 2

首先，请确保安装最新版本的 Flash Attention 2，以包括滑动窗口注意力特性，并确保您的硬件与 Flash-Attention 2 兼容。有关安装的更多详细信息，请参见此处。

还要确保将模型加载为半精度（例如torch.float16）。

要加载和运行使用 Flash Attention 2 的模型，请参考下面的代码片段：

>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto

>>> model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-2.7B", torch_dtype=torch.float16, attn_implementation="flash_attention_2")
>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-2.7B")

>>> prompt = "def hello_world():"

>>> model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
>>> model.to(device)

>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"def hello_world():\n    >>> run_script("hello.py")\n    >>> exit(0)\n<|endoftext|>"

预期加速

下面是一个预期加速图表，比较了 transformers 中的原生实现和使用EleutherAI/gpt-neo-2.7B检查点以及模型的 Flash Attention 2 版本之间的纯推理时间。请注意，对于 GPT-Neo，不可能在非常长的上下文中进行训练/运行，因为最大位置嵌入限制为 2048 - 但这适用于所有 gpt-neo 模型，而不仅仅是 FA-2

资源

文本分类任务指南
因果语言建模任务指南

GPTNeoConfig

`class transformers.GPTNeoConfig`

<来源>

( vocab_size = 50257 max_position_embeddings = 2048 hidden_size = 2048 num_layers = 24 attention_types = [[['global', 'local'], 12]] num_heads = 16 intermediate_size = None window_size = 256 activation_function = 'gelu_new' resid_dropout = 0.0 embed_dropout = 0.0 attention_dropout = 0.0 classifier_dropout = 0.1 layer_norm_epsilon = 1e-05 initializer_range = 0.02 use_cache = True bos_token_id = 50256 eos_token_id = 50256 **kwargs )

参数

vocab_size（int，可选，默认为 50257）— GPT Neo 模型的词汇量。定义了在调用 GPTNeoModel 时可以表示的不同令牌数量。模型的词汇量。定义了在调用 GPTNeoModel 的 forward 方法时可以表示的不同令牌。
max_position_embeddings（int，可选，默认为 2048）— 此模型可能被使用的最大序列长度。通常将其设置为较大的值以防万一（例如，512 或 1024 或 2048）。
hidden_size（int，可选，默认为 2048）— 编码器层和池化器层的维度。
num_layers（int，可选，默认为 24）— Transformer 编码器中的隐藏层数量。
attention_types（List，可选，默认为[[['global', 'local'], 12]]）— 每个层中的注意力类型在List中的格式为[[["attention_type"], num_layerss]]，例如对于一个 24 层模型[[["global"], 24]]或[[["global", "local"], 12]]从["global", "local"]中选择attention_type的值
num_heads（int，可选，默认为 16）— Transformer 编码器中每个注意力层的注意力头数。
intermediate_size（int，可选，默认为 8192）— Transformer 编码器中“中间”（即前馈）层的维度。
window_size（int，可选，默认为 256）— 本地注意力的滑动窗口大小。
activation_function（str或function，可选，默认为"gelu_new"）— 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，支持"gelu"，"relu"，"selu"和"gelu_new"。
resid_dropout（float，可选，默认为 0.0）— 用于注意力模式中的残差丢失。
embed_dropout（float，可选，默认为 0.0）— 嵌入层、编码器和池化器中所有全连接层的丢失概率。
attention_dropout（float，可选，默认为 0.0）— 注意力概率的丢失比率。
classifier_dropout（float，可选，默认为 0.1）— 在进行标记分类时使用的参数，用于模型 GPTNeoForTokenClassification。隐藏层的丢失比率。
layer_norm_epsilon（float，可选，默认为 1e-05）— 层归一化层使用的 epsilon。
initializer_range（float，可选，默认为 0.02）— 用于初始化所有权重矩阵的截断正态初始化器的标准差。
use_cache（bool，可选，默认为True）— 模型是否应返回最后的键/值注意力（不是所有模型都使用）。仅在config.is_decoder=True时相关。
bos_token_id（int，可选，默认为 50256）— 词汇表中句子开头标记的 ID。
eos_token_id（int，可选，默认为 50256）— 词汇表中句子结束标记的 ID。

这是用于存储 GPTNeoModel 配置的配置类。它用于根据指定的参数实例化一个 GPT Neo 模型，定义模型架构。使用默认值实例化配置将产生类似于 GPTNeo EleutherAI/gpt-neo-1.3B架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例：

>>> from transformers import GPTNeoConfig, GPTNeoModel

>>> # Initializing a GPTNeo EleutherAI/gpt-neo-1.3B style configuration
>>> configuration = GPTNeoConfig()

>>> # Initializing a model (with random weights) from the EleutherAI/gpt-neo-1.3B style configuration
>>> model = GPTNeoModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

PytorchHide Pytorch 内容

GPTNeoModel

`class transformers.GPTNeoModel`

<来源>

( config )

参数

config（GPTNeoConfig）— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

裸的 GPT Neo 模型变压器输出原始隐藏状态，没有特定的头部。

这个模型继承自 PreTrainedModel。查看超类文档以了解库实现的通用方法（如下载或保存，调整输入嵌入大小，修剪头等）。

这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, input_ids_length)) — input_ids_length = sequence_length，如果 past_key_values 是 None，否则为 past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了 past_key_values，则只需传递尚未计算其过去的 input_ids 作为 input_ids。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Tuple[Tuple[torch.Tensor]]，长度为 config.num_layers) — 包含由模型计算的预计算隐藏状态（注意力块中的键和值）（请参见下面的 past_key_values 输出）。可用于加速顺序解码。已经计算过其过去的 input_ids 不应作为 input_ids 传递。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 避免在填充标记索引上执行注意力的掩码。掩码值选择在 [0, 1] 中：
- 1 对于 未被掩盖 的标记，
- 0 对于 被掩盖 的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor，形状为 (batch_size, input_ids_length)，可选) — 段标记索引，指示输入的第一部分和第二部分。索引选择在 [0, 1] 中：
- 0 对应于 句子 A 的标记，
- 1 对应于 句子 B 的标记。
什么是标记类型 ID？
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

什么是位置 ID？
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头部失效的掩码。掩码值选择在 [0, 1] 中：
- 1 表示头部未被 掩盖，
- 0 表示头部被 掩盖。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您想要更多控制如何将 input_ids 索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。

如果使用了 past_key_values，则只需输入最后的 inputs_embeds（参见 past_key_values）。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并可用于加速解码（参见 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回的张量中的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回的张量中的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或一个torch.FloatTensor元组（如果传递return_dict=False或者config.return_dict=False）包含根据配置（GPTNeoConfig）和输入不同的元素。

last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor） — 模型最后一层的隐藏状态序列。

如果使用past_key_values，则仅输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或者config.use_cache=True时返回） — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量，如果config.is_encoder_decoder=True还有 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。

包含预先计算的隐藏状态（自注意力块中的键和值，以及可选的如果config.is_encoder_decoder=True在交叉注意力块中）可用于（见past_key_values输入）加速顺序解码。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或者config.output_hidden_states=True时返回） — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入输出的输出+每层的输出）。

模型每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或者config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

自注意力头中的注意力权重经过注意力 softmax 后，用于计算自注意力头中的加权平均值。
cross_attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True和config.add_cross_attention=True或者config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

解码器的交叉注意力层的注意力权重，在注意力 softmax 后使用，用于计算交叉注意力头中的加权平均值。

GPTNeoModel 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是这个，因为前者会负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPTNeoModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> model = GPTNeoModel.from_pretrained("EleutherAI/gpt-neo-1.3B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

GPTNeoForCausalLM

`class transformers.GPTNeoForCausalLM`

<来源>

( config )

参数

config（GPTNeoConfig） — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

GPT Neo 模型变压器，顶部带有语言建模头（线性层，其权重与输入嵌入绑定）。

这个模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

这个模型也是 PyTorch torch.nn.Module的子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithCrossAttentions or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, input_ids_length)) — input_ids_length = sequence_length，如果past_key_values为None，否则为past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只有那些没有计算过其过去的input_ids应该作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Tuple[Tuple[torch.Tensor]] of length config.num_layers) — 包含由模型计算的预计算隐藏状态（注意力块中的键和值，如下面的past_key_values输出所示）。可用于加速顺序解码。将其过去给予该模型的input_ids不应作为input_ids传递，因为它们已经被计算过了。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间：
- 1 表示未被屏蔽的标记，
- 0 表示被屏蔽的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor of shape (batch_size, input_ids_length), optional) — 段标记索引，用于指示输入的第一部分和第二部分。索引选择在[0, 1]之间：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中的选定头部失效的掩码。掩码值选择在[0, 1]之间：
- 1 表示头部未被屏蔽，
- 0 表示头部被屏蔽。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，可以直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权，以便将input_ids索引转换为相关向量，而不是模型的内部嵌入查找矩阵。

如果使用了past_key_values，则只需输入最后的inputs_embeds（参见past_key_values）。
use_cache (bool, optional) — 如果设置为True，则返回past_key_values键值状态，并可用于加速解码（参见past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回的张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。
labels (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 用于语言建模的标签。请注意，模型内部移动了标签，即您可以设置labels = input_ids。在[-100, 0, ..., config.vocab_size]中选择索引。所有设置为-100的标签都被忽略（掩码），损失仅计算[0, ..., config.vocab_size]中的标签。

transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False）包含各种元素，取决于配置（GPTNeoConfig）和输入。

loss (torch.FloatTensor，形状为(1,)，optional, 当提供labels时返回) — 语言建模损失（用于下一个标记预测）。
logits (torch.FloatTensor，形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出+每层的输出）。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的交叉注意力权重，用于计算交叉注意力头中的加权平均值。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的torch.FloatTensor元组，每个元组包含自注意力和交叉注意力层的缓存键、值状态，如果模型用于编码器-解码器设置，则相关。仅在config.is_decoder = True时相关。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。

GPTNeoForCausalLM 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会处理运行前后的处理步骤，而后者会默默地忽略它们。

示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTNeoForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> model = GPTNeoForCausalLM.from_pretrained("EleutherAI/gpt-neo-1.3B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

GPTNeoForQuestionAnswering

`class transformers.GPTNeoForQuestionAnswering`

<来源>

( config )

参数

config（GPTNeoConfig）— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

GPT-Neo 模型变压器在顶部具有一个用于提取式问答任务（如 SQuAD）的跨度分类头（在隐藏状态输出顶部的线性层，用于计算span start logits和span end logits）。

这个模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法（例如下载或保存，调整输入嵌入大小，修剪头等）。

这个模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor）— input_ids_length = sequence_length，如果past_key_values为None，则为past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只应将未计算其过去的input_ids作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values（长度为config.num_layers的Tuple[Tuple[torch.Tensor]]）— 包含由模型计算的预计算隐藏状态（注意力块中的键和值）（请参见下面的past_key_values输出）。可用于加速顺序解码。将其过去给定给此模型的input_ids不应作为input_ids传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]范围内：
- 1 表示未被屏蔽的标记，
- 0 表示被屏蔽的标记。
什么是注意力掩码？
token_type_ids（形状为(batch_size, input_ids_length)的torch.LongTensor，可选）— 段标记索引，指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]范围内：
- 1 表示头部未被屏蔽，
- 0 表示头部被masked。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。

如果使用past_key_values，则可选择仅输入最后的inputs_embeds（参见past_key_values）。
use_cache (bool, optional) — 如果设置为True，则返回past_key_values键值状态，可用于加速解码（参见past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
start_positions (torch.LongTensor of shape (batch_size,), optional) — 用于计算标记分类损失的标记跨度起始位置的标签。位置被夹在序列的长度（sequence_length）内。序列外的位置不会被考虑在内计算损失。
end_positions (torch.LongTensor of shape (batch_size,), optional) — 用于计算标记分类损失的标记跨度结束位置的标签。位置被夹在序列的长度（sequence_length）内。序列外的位置不会被考虑在内计算损失。

transformers.modeling_outputs.QuestionAnsweringModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False）包含根据配置（GPTNeoConfig）和输入的各种元素。

loss (torch.FloatTensor of shape (1,), optional, 当提供labels时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 跨度起始分数（SoftMax 之前）。
end_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 跨度结束分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出和每一层的输出）。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoForQuestionAnswering 的前向方法，覆盖__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者则默默地忽略它们。

此示例使用随机模型，因为真实模型都非常庞大。为了获得正确的结果，您应该使用 EleutherAI/gpt-neo-1.3B，而不是 EleutherAI/gpt-neo-1.3B。如果在加载该检查点时出现内存不足的情况，可以尝试在from_pretrained调用中添加device_map="auto"。

示例：

>>> from transformers import AutoTokenizer, GPTNeoForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> model = GPTNeoForQuestionAnswering.from_pretrained("EleutherAI/gpt-neo-1.3B")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss

GPTNeoForSequenceClassification

`class transformers.GPTNeoForSequenceClassification`

<来源>

( config )

参数

config（GPTNeoConfig）- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

GPTNeo 模型变压器，顶部带有序列分类头（线性层）。

GPTNeoForSequenceClassification 使用最后一个标记来进行分类，就像其他因果模型（例如 GPT-1）一样。

由于它对最后一个标记进行分类，因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id，则会找到每行中不是填充标记的最后一个标记。如果未定义pad_token_id，则会简单地取批处理中每行的最后一个值。当传递inputs_embeds而不是input_ids时，它无法猜测填充标记，因此会执行相同操作（取批处理中每行的最后一个值）。

此模型继承自 PreTrainedModel。检查超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor）- input_ids_length = sequence_length（如果past_key_values为None）否则为past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用past_key_values，则只应将未计算其过去的input_ids作为input_ids传递。

可以使用 AutoTokenizer 来获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values（长度为config.num_layers的Tuple[Tuple[torch.Tensor]]）- 包含由模型计算的预计算隐藏状态（注意力块中的键和值）（请参见下面的past_key_values输出）。可用于加速顺序解码。已将其过去给定给此模型的input_ids不应作为input_ids传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）— 用于避免在填充令牌索引上执行注意力的掩码。选择的掩码值在[0, 1]中选择：
- 对于未被masked的令牌为 1，
- 对于被masked的令牌为 0。
什么是注意力掩码？
token_type_ids（形状为(batch_size, input_ids_length)的torch.LongTensor，可选）— 段令牌索引，指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A令牌，
- 1 对应于句子 B令牌。
什么是令牌类型 ID？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 每个输入序列令牌的位置在位置嵌入中的索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部失效的掩码。选择的掩码值在[0, 1]中选择：
- 1 表示头部未被masked，
- 0 表示头部被masked。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）— 可选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。

如果使用past_key_values，可选择仅输入最后的inputs_embeds（请参见past_key_values）。
use_cache（bool，可选）— 如果设置为True，则返回past_key_values键值状态，可用于加速解码（请参见past_key_values）。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回的张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回 ModelOutput 而不是普通元组。
labels（形状为(batch_size,)的torch.LongTensor，可选）— 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]中。如果config.num_labels == 1，则计算回归损失（均方损失），如果config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.SequenceClassifierOutputWithPast或tuple(torch.FloatTensor)

一个transformers.modeling_outputs.SequenceClassifierOutputWithPast或一个包含各种元素的torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False时）取决于配置（GPTNeoConfig）和输入。

loss（形状为(1,)的torch.FloatTensor，可选，当提供labels时返回）— 分类（如果config.num_labels==1则为回归）损失。
logits（形状为(batch_size, config.num_labels)的torch.FloatTensor）— 分类（如果config.num_labels==1则为回归）得分（SoftMax 之前）。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回）— 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量）

包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回） — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出和每层的输出）。

每层模型的输出的隐藏状态以及可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在自注意力头中用于计算加权平均值的注意力权重之后的注意力 softmax。

GPTNeoForSequenceClassification 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在之后调用Module实例，而不是这个，因为前者会处理运行前后处理步骤，而后者会默默地忽略它们。

单标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTNeoForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> model = GPTNeoForSequenceClassification.from_pretrained("EleutherAI/gpt-neo-1.3B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPTNeoForSequenceClassification.from_pretrained("EleutherAI/gpt-neo-1.3B", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTNeoForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> model = GPTNeoForSequenceClassification.from_pretrained("EleutherAI/gpt-neo-1.3B", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPTNeoForSequenceClassification.from_pretrained(
...     "EleutherAI/gpt-neo-1.3B", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

GPTNeoForTokenClassification

`class transformers.GPTNeoForTokenClassification`

<来源>

( config )

参数

config（GPTNeoConfig） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

GPT Neo 模型，顶部带有一个标记分类头（隐藏状态输出的线性层），例如用于命名实体识别（NER）任务。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型也是 PyTorch 的torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor） — 如果past_key_values为None，则input_ids_length=sequence_length，否则input_ids_length=past_key_values[0][0].shape[-2]（输入过去关键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用past_key_values，则只应将未计算其过去的input_ids作为input_ids传递。

可以使用 AutoTokenizer 来获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values（长度为config.num_layers的Tuple[Tuple[torch.Tensor]]）— 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如下面的past_key_values输出所示。可用于加速顺序解码。已将其过去给予此模型的input_ids不应作为input_ids传递，因为它们已经计算过。
attention_mask（torch.FloatTensor，形状为(batch_size, sequence_length)，可选）— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中：
- 1 表示未被“掩盖”的标记，
- 0 表示被“掩盖”的标记。
什么是注意力掩码？
token_type_ids（torch.LongTensor，形状为(batch_size, input_ids_length)，可选）— 段标记索引，指示输入的第一部分和第二部分。索引选择在[0, 1]中：
- 0 对应于句子 A标记。
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（torch.LongTensor，形状为(batch_size, sequence_length)，可选）— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（torch.FloatTensor，形状为(num_heads,)或(num_layers, num_heads)，可选）— 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]中：
- 1 表示头部未被“掩盖”，
- 0 表示头部被“掩盖”。
inputs_embeds（torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选）— 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权，以便将input_ids索引转换为相关向量，而不是模型的内部嵌入查找矩阵，则这很有用。

如果使用了past_key_values，则可以选择仅输入最后的inputs_embeds（请参阅past_key_values）。
use_cache（bool，可选）— 如果设置为True，则返回past_key_values键值状态，并可用于加速解码（请参阅past_key_values）。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回一个 ModelOutput 而不是一个普通元组。
labels（torch.LongTensor，形状为(batch_size, sequence_length)，可选）— 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]中。如果config.num_labels == 1，则计算回归损失（均方损失），如果config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.TokenClassifierOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或当config.return_dict=False时）包括根据配置（GPTNeoConfig）和输入不同元素。

loss（torch.FloatTensor，形状为(1,)，可选，在提供labels时返回）— 分类损失。
logits（torch.FloatTensor，形状为(batch_size, sequence_length, config.num_labels)）— 分类分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回） — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则为嵌入输出的一个 + 每层的输出的一个）。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回） — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoForTokenClassification 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义，但应该在此之后调用 Module 实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者会默默忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPTNeoForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-125m")
>>> model = GPTNeoForTokenClassification.from_pretrained("EleutherAI/gpt-neo-125m")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
0.25

JAX 隐藏 JAX 内容

FlaxGPTNeoModel

`class transformers.FlaxGPTNeoModel`

<来源>

( config: GPTNeoConfig input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

参数

config（GPTNeoConfig） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。
dtype (jax.numpy.dtype, 可选，默认为 jax.numpy.float32) — 计算的数据类型。可以是 jax.numpy.float32、jax.numpy.float16（在 GPU 上）和 jax.numpy.bfloat16（在 TPU 上）之一。

这可以用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定了，所有计算将使用给定的 dtype 执行。

请注意，这仅指定了计算的数据类型，不会影响模型参数的数据类型。

如果您希望更改模型参数的数据类型，请参阅 to_fp16()和 to_bf16()。

裸的 GPTNeo 模型变换器输出原始隐藏状态，没有特定的头部在顶部。

此模型继承自 FlaxPreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

此模型还是一个 Flax Linen flax.nn.Module 子类。将其用作常规 Flax 模块，并参考 Flax 文档以获取与一般用法和行为相关的所有事项。

最后，此模型支持 JAX 的固有特性，例如：

`call`

<来源>

( input_ids attention_mask = None position_ids = None params: dict = None past_key_values: dict = None dropout_rng: PRNGKey = None train: bool = False output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_flax_outputs.FlaxBaseModelOutput or tuple(torch.FloatTensor)

参数

input_ids (numpy.ndarray of shape (batch_size, input_ids_length)) — input_ids_length = sequence_length。词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (numpy.ndarray of shape (batch_size, sequence_length), optional) — 避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间：
- 对于未掩码的标记，值为 1，
- 对于被掩码的标记，值为 0。
什么是注意力掩码？
position_ids (numpy.ndarray of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
past_key_values (Dict[str, np.ndarray], optional, 由init_cache返回或传递先前的past_key_values时返回) — 预先计算的隐藏状态字典（注意力块中的键和值），可用于快速自回归解码。预先计算的键和值隐藏状态的形状为[batch_size, max_length]。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。

transformers.modeling_flax_outputs.FlaxBaseModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False）包含各种元素，具体取决于配置（GPTNeoConfig）和输入。

last_hidden_state (jnp.ndarray of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。
hidden_states (tuple(jnp.ndarray), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(jnp.ndarray), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组（每个层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

FlaxGPTNeoPreTrainedModel的前向方法，覆盖了__call__特殊方法。

尽管前向传递的配方需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, FlaxGPTNeoModel

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> model = FlaxGPTNeoModel.from_pretrained("EleutherAI/gpt-neo-1.3B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="jax")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

FlaxGPTNeoForCausalLM

`class transformers.FlaxGPTNeoForCausalLM`

<来源>

( config: GPTNeoConfig input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

参数

config（GPTNeoConfig）- 模型的所有参数的配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。
dtype（jax.numpy.dtype，可选，默认为jax.numpy.float32）- 计算的数据类型。可以是jax.numpy.float32、jax.numpy.float16（在 GPU 上）和jax.numpy.bfloat16（在 TPU 上）之一。

这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定了dtype，则所有计算将使用给定的数据类型执行。

请注意，这仅指定了计算的数据类型，不会影响模型参数的数据类型。

如果要更改模型参数的数据类型，请参阅 to_fp16()和 to_bf16()。

GPTNeo 模型变压器，顶部带有语言建模头（线性层，其权重与输入嵌入相关联）。

此模型继承自 FlaxPreTrainedModel。检查超类文档以获取库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

该模型还是一个 Flax Linen flax.nn.Module子类。将其用作常规 Flax 模块，并参考 Flax 文档以获取有关一般用法和行为的所有相关信息。

最后，此模型支持 JAX 的固有功能，例如：

`call`

<来源>

( input_ids attention_mask = None position_ids = None params: dict = None past_key_values: dict = None dropout_rng: PRNGKey = None train: bool = False output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_flax_outputs.FlaxMaskedLMOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的numpy.ndarray）- input_ids_length = sequence_length。词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的numpy.ndarray，可选）- 用于避免在填充标记索引上执行注意力的掩码。选择的掩码值为[0, 1]：
- 1 表示“未屏蔽”的标记，
- 0 表示“屏蔽”的标记。
什么是注意力掩码？
position_ids（形状为(batch_size, sequence_length)的numpy.ndarray，可选）- 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
past_key_values (Dict[str, np.ndarray]，可选，由 init_cache 返回或传递先前的 past_key_values 时返回）— 预先计算的隐藏状态字典（注意力块中的键和值），可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]。
output_attentions (bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选）— 是否返回一个 ModelOutput 而不是一个普通的元组。

transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False 时）包含各种元素，取决于配置（GPTNeoConfig）和输入。

logits (jnp.ndarray，形状为 (batch_size, sequence_length, config.vocab_size)）— 语言建模头的预测分数（SoftMax 前每个词汇标记的分数）。
hidden_states (tuple(jnp.ndarray)，可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回）— 形状为 (batch_size, sequence_length, hidden_size) 的 jnp.ndarray 元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

模型在每个层输出处的隐藏状态加上初始嵌入输出。
attentions (tuple(jnp.ndarray)，可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回）— 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 jnp.ndarray 元组（每个层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

FlaxGPTNeoPreTrainedModel 的前向方法，覆盖了 __call__ 特殊方法。

虽然前向传递的方法需要在此函数内定义，但应该在此之后调用 Module 实例，而不是这个，因为前者负责运行前后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, FlaxGPTNeoForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
>>> model = FlaxGPTNeoForCausalLM.from_pretrained("EleutherAI/gpt-neo-1.3B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="np")
>>> outputs = model(**inputs)

>>> # retrieve logts for next token
>>> next_token_logits = outputs.logits[:, -1]

GPT-NeoX

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/gpt_neox

概述

我们介绍了 GPT-NeoX-20B，这是一个拥有 200 亿参数的自回归语言模型，经过 Pile 训练，其权重将通过宽松许可证免费向公众开放。据我们所知，这是在提交时具有公开可用权重的最大稠密自回归模型。在这项工作中，我们描述了 GPT-NeoX-20B 的架构和训练，并评估了其在一系列语言理解、数学和基于知识的任务上的性能。我们发现，GPT-NeoX-20B 是一个特别强大的少样本推理器，在进行五次评估时性能提升明显，而与大小相似的 GPT-3 和 FairSeq 模型相比。我们开源了训练和评估代码，以及模型权重，链接为 github.com/EleutherAI/gpt-neox。

该模型的开发由 Sid Black、Stella Biderman 和 Eric Hallahan 领导，模型在 CoreWeave 的慷慨支持下进行了训练。

GPT-NeoX-20B 使用 fp16 进行训练，因此建议按以下方式初始化模型：

model = GPTNeoXForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b").half().cuda()

GPT-NeoX-20B 还具有与 GPT-J-6B 和 GPT-Neo 中使用的不同分词器。新的分词器为空格字符分配了额外的标记，使模型更适合某些任务，如代码生成。

使用示例

generate() 方法可用于使用 GPT Neo 模型生成文本。

>>> from transformers import GPTNeoXForCausalLM, GPTNeoXTokenizerFast

>>> model = GPTNeoXForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b")
>>> tokenizer = GPTNeoXTokenizerFast.from_pretrained("EleutherAI/gpt-neox-20b")

>>> prompt = "GPTNeoX20B is a 20B-parameter autoregressive Transformer model developed by EleutherAI."

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids

>>> gen_tokens = model.generate(
...     input_ids,
...     do_sample=True,
...     temperature=0.9,
...     max_length=100,
... )
>>> gen_text = tokenizer.batch_decode(gen_tokens)[0]

使用 Flash Attention 2

Flash Attention 2 是模型的更快、优化版本。

安装

首先，检查您的硬件是否与 Flash Attention 2 兼容。最新的兼容硬件列表可以在官方文档中找到。如果您的硬件与 Flash Attention 2 不兼容，您仍然可以通过上述使用 Better Transformer 支持受益于注意力核优化。

接下来，安装最新版本的 Flash Attention 2：

pip install -U flash-attn --no-build-isolation

用法

要使用 Flash Attention 2 加载模型，我们可以将参数 attn_implementation="flash_attention_2" 传递给 .from_pretrained。我们还将以半精度（例如 torch.float16）加载模型，因为这几乎不会降低音频质量，但显著降低内存使用量并加快推理速度：

>>> from transformers import GPTNeoXForCausalLM, GPTNeoXTokenizerFast

model = GPTNeoXForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b", torch_dtype=torch.float16, attn_implementation="flash_attention_2").to(device)
...

预期加速

下面是一个预期加速图表，比较了在使用 stockmark/gpt-neox-japanese-1.4b 检查点的 transformers 中的原生实现和使用序列长度为 2048 的模型的 Flash Attention 2 版本之间的纯推理时间。

资源

因果语言建模任务指南

GPTNeoXConfig

`class transformers.GPTNeoXConfig`

<来源>

( vocab_size = 50432 hidden_size = 6144 num_hidden_layers = 44 num_attention_heads = 64 intermediate_size = 24576 hidden_act = 'gelu' rotary_pct = 0.25 rotary_emb_base = 10000 attention_dropout = 0.0 hidden_dropout = 0.0 classifier_dropout = 0.1 max_position_embeddings = 2048 initializer_range = 0.02 layer_norm_eps = 1e-05 use_cache = True bos_token_id = 0 eos_token_id = 2 tie_word_embeddings = False use_parallel_residual = True rope_scaling = None attention_bias = True **kwargs )

参数

vocab_size（int，可选，默认为 50432）— GPTNeoX 模型的词汇量。定义了在调用 GPTNeoXModel 时可以由 inputs_ids 表示的不同标记数量。
hidden_size（int，可选，默认为 6144）— 编码器层和池化层的维度。
num_hidden_layers（int，可选，默认为 44）— Transformer 编码器中的隐藏层数量。
num_attention_heads (int, optional, defaults to 64) — Transformer 编码器中每个注意力层的注意力头数。
intermediate_size (int, optional, defaults to 24576) — Transformer 编码器中“中间”（即前馈）层的维度。
hidden_act (str or function, optional, defaults to "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，支持"gelu"、"relu"、"selu"和"gelu_new"。
rotary_pct (float, optional, defaults to 0.25) — 隐藏维度分配给旋转嵌入的百分比
rotary_emb_base (int, optional, defaults to 10000) — 计算旋转嵌入频率的基数
attention_dropout (float, optional, defaults to 0.0) — 注意力分数的 dropout 比例概率。
hidden_dropout (float, optional, defaults to 0.0) — （1）词嵌入的 dropout 比例，（2）注意力后隐藏状态的 dropout 比例，以及（3）MLP 后隐藏状态的 dropout 比例。
classifier_dropout (float, optional, defaults to 0.1) — 在进行标记分类时使用的参数，在模型 GPTNeoXForTokenClassification 中使用。

隐藏层的 dropout 比例。
max_position_embeddings (int, optional, defaults to 2048) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一（例如 512、1024 或 2048）。
initializer_range (float, optional, defaults to 1e-5) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
layer_norm_eps (float, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。
use_cache (bool, optional, defaults to True) — 模型是否应返回最后的键/值注意力（不是所有模型都使用）。仅在config.is_decoder=True时相关。
use_parallel_residual (bool, optional, defaults to True) — 是否在每个 Transformer 层中使用“并行”公式，这可以在大规模（例如 20B）时提供轻微的训练加速。
rope_scaling (Dict, optional) — 包含 RoPE 嵌入的缩放配置的字典。目前支持两种缩放策略：线性和动态。它们的缩放因子必须是大于 1 的浮点数。预期格式为{"type": 策略名称, "factor": 缩放因子}。在使用此标志时，不要将max_position_embeddings更新为预期的新最大值。有关这些缩放策略行为的更多信息，请参阅以下线程：www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/。这是一个实验性功能，可能在未来版本中发生破坏性 API 更改。
attention_bias (bool, optional, defaults to True) — 在自注意力期间的查询、键、值和输出投影层中是否使用偏置。

示例 —

这是用于存储 GPTNeoXModel 配置的配置类。它用于根据指定的参数实例化一个 GPTNeoX 模型，定义模型架构。使用默认值实例化配置将产生类似于 GPTNeoX EleutherAI/gpt-neox-20b架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。

>>> from transformers import GPTNeoXConfig, GPTNeoXModel

>>> # Initializing a GPTNeoX gpt-neox-20b style configuration
>>> configuration = GPTNeoXConfig()

>>> # Initializing a model (with random weights) from the gpt-neox-20b style configuration
>>> model = GPTNeoXModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

GPTNeoXTokenizerFast

`class transformers.GPTNeoXTokenizerFast`

< 源代码 >

( vocab_file = None merges_file = None tokenizer_file = None unk_token = '<|endoftext|>' bos_token = '<|endoftext|>' eos_token = '<|endoftext|>' add_prefix_space = False **kwargs )

参数

vocab_file (str) — 词汇文件的路径。
merges_file (str) — 合并文件的路径。
errors (str, optional, 默认为 "replace") — 解码字节为 UTF-8 时要遵循的范例。更多信息请参考 bytes.decode。
unk_token（str，optional，默认为<|endoftext|>）--未知令牌。词汇表中没有的令牌无法转换为 ID，而是设置为该令牌。
bos_token（str，optional，默认为<|endoftext|>）--序列标记的开头。
eos_token（str，optional，默认为<|endoftext|>）--序列结束标记。
add_prefix_space (bool, optional, 默认为 False) — 是否在输入前添加一个初始空格。这允许将前导单词视为任何其他单词。 (GPTNeoX 分词器通过前面的空格检测单词的开头)。
trim_offsets (bool, optional, 默认为 True) — 后处理步骤是否应修剪偏移量以避免包含空格。

构建一个“快速” GPT-NeoX-20B 分词器（由 HuggingFace 的 tokenizers 库支持）。基于字节级字节对编码。

此分词器经过训练，将空格视为标记的一部分（有点像 sentencepiece），因此一个单词将

在句子开头（无空格）或不在句子开头时，将被编码为不同的方式：

>>> from transformers import GPTNeoXTokenizerFast

>>> tokenizer = GPTNeoXTokenizerFast.from_pretrained("gpt2")
>>> tokenizer("Hello world")["input_ids"]
[15496, 995]

>>> tokenizer(" Hello world")["input_ids"]
[18435, 995]

您可以通过在实例化此分词器时传递 add_prefix_space=True 来避免这种行为，但由于模型不是以这种方式进行预训练的，可能会导致性能下降。

当与 is_split_into_words=True 一起使用时，此分词器需要使用 add_prefix_space=True 进行实例化。

此分词器继承自 PreTrainedTokenizerFast，其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。

GPTNeoXModel

`class transformers.GPTNeoXModel`

< 源代码 >

( config )

参数

config (~GPTNeoXConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

裸的 GPTNeoX 模型变压器输出原始隐藏状态，没有特定的头部。此模型是 PyTorch torch.nn.Module 的子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

< 源代码 >

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None past_key_values: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 输入序列标记在词汇表中的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，optional) — 避免在填充标记索引上执行注意力的掩码。选择在 [0, 1] 中的掩码值：
- 1 代表 未被掩盖 的标记，
- 0 代表 被掩盖 的标记。
什么是注意力掩码？
position_ids (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 每个输入序列标记在位置嵌入中的位置索引。选在范围[0, config.n_positions - 1]内。

什么是位置 ID？
head_mask (torch.FloatTensor，形状为(num_heads,)或(num_layers, num_heads)，optional) — 用于使自注意力模块中的特定头部失效的掩码。掩码值选在[0, 1]之间：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，optional) — 可选地，可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
output_attentions (bool，optional) — 是否返回所有注意力层的注意力张量。有关更多细节，请查看返回张量中的attentions。
output_hidden_states (bool，optional) — 是否返回所有层的隐藏状态。有关更多细节，请查看返回张量中的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
past_key_values (tuple(tuple(torch.FloatTensor))，长度为config.n_layers，每个元组有 4 个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)的张量） — 包含注意力块的预先计算的键和值隐藏状态。可用于加速解码。如果使用past_key_values，用户可以选择仅输入形状为(batch_size, 1)的最后一个decoder_input_ids（即那些没有将过去的键值状态提供给该模型的输入）而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
use_cache (bool，optional) — 如果设置为True，则返回past_key_values键值状态，可用于加速解码（查看past_key_values）。

transformers.modeling_outputs.BaseModelOutputWithPast 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPast 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False时）包含根据配置（GPTNeoXConfig）和输入而异的各种元素。

last_hidden_state (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。

如果仅使用past_key_values，则输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values (tuple(tuple(torch.FloatTensor))，optional，当传递use_cache=True或config.use_cache=True时返回） — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量）和可选地如果config.is_encoder_decoder=True还有 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。

包含预先计算的隐藏状态（自注意力块中的键和值以及在交叉注意力块中可选地使用config.is_encoder_decoder=True）可用于加速顺序解码。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回） — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则为嵌入输出的输出 + 每层的输出）。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回） — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

在自注意力头中用于计算加权平均值的注意力 softmax 后的注意力权重。

GPTNeoXModel 的前向方法，覆盖了 __call__ 特殊方法。

尽管前向传递的步骤需要在此函数内定义，但应该在此之后调用 Module 实例，而不是在此处调用，因为前者会处理运行前后处理步骤，而后者会默默忽略它们。

此示例使用一个随机模型，因为真实模型都非常庞大。为了获得正确的结果，您应该使用 EleutherAI/gpt-neox-20b 而不是 trl-internal-testing/tiny-random-GPTNeoXForCausalLM。如果在加载该检查点时遇到内存不足的情况，可以尝试在 from_pretrained 调用中添加 device_map="auto"。

示例：

>>> from transformers import AutoTokenizer, GPTNeoXModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM")
>>> model = GPTNeoXModel.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

GPTNeoXForCausalLM

`class transformers.GPTNeoXForCausalLM`

< source >

( config )

参数

config (~GPTNeoXConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只加载配置。查看 from_pretrained() 方法以加载模型权重。

在顶部带有 语言建模 头部的 GPTNeoX 模型，用于 CLM 微调。这个模型是 PyTorch torch.nn.Module 的子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

< source >

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None inputs_embeds: Optional = None head_mask: Optional = None past_key_values: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在 [0, 1]：
- 对于未被 掩码 的标记为 1，
- 对于被 掩码 的标记为 0。
什么是注意力掩码？
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.n_positions - 1]。

什么是位置 ID？
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中的选定头部失效的掩码。掩码值选定在 [0, 1] 之间：
- 1 表示头部未被掩盖，
- 0 表示头部被掩盖。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选，您可以选择直接传递嵌入表示而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量，这将非常有用，而不是使用模型的内部嵌入查找矩阵。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量，以及 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的额外张量。当模型用作序列到序列模型中的解码器时，只有在需要时才需要这两个额外张量。

包含预先计算的隐藏状态（自注意力块中的键和值，可用于加速顺序解码（请参见past_key_values输入）。

如果使用past_key_values，用户可以选择仅输入最后的decoder_input_ids（这些没有将它们的过去键值状态提供给此模型的）的形状为(batch_size, 1)的张量，而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于计算从左到右的语言建模损失（下一个单词预测）的标签。索引应在 [-100, 0, ..., config.vocab_size] 内（参见 input_ids 文档字符串）。索引设置为 -100 的标记将被忽略（掩盖），损失仅计算具有标签 n [0, ..., config.vocab_size] 的标记。
use_cache (bool, optional) — 如果设置为True，则返回past_key_values键值状态，可用于加速解码（请参见past_key_values）。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False时）包含各种元素，这取决于配置（GPTNeoXConfig）和输入。

loss (torch.FloatTensor of shape (1,), optional, 当提供labels时返回) — 语言建模损失（用于下一个标记预测）。
logits (torch.FloatTensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。

包含预先计算的隐藏状态（自注意力块中的键和值），可以使用（查看 past_key_values 输入）以加速顺序解码。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回） — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则为嵌入的输出 + 每一层的输出）。

模型在每一层输出处的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回） — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoXForCausalLM 的前向方法，覆盖了 __call__ 特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用 Module 实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPTNeoXForCausalLM, GPTNeoXConfig
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
>>> config = GPTNeoXConfig.from_pretrained("EleutherAI/gpt-neox-20b")
>>> config.is_decoder = True
>>> model = GPTNeoXForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b", config=config)

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> prediction_logits = outputs.logits

GPTNeoXForQuestionAnswering

`class transformers.GPTNeoXForQuestionAnswering`

<来源>

( config )

参数

config（~GPTNeoXConfig） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法以加载模型权重。

GPT-NeoX 模型变压器，顶部带有用于类似 SQuAD 的抽取式问答任务的跨度分类头（在隐藏状态输出顶部的线性层上计算 跨度起始对数 和 跨度结束对数）。

这个模型是 PyTorch torch.nn.Module 的子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

`forward`

<来源>

( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选在 [0, 1]：
- 对于 未掩码 的标记为 1，
- 对于 已掩码 的标记为 0。
什么是注意力掩码？
position_ids (torch.LongTensor，形状为 (batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.n_positions - 1] 中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）- 用于使自注意力模块中选择的头部失效的掩码。掩码值选择在[0, 1]中：
- 1 表示头部未被masked，
- 0 表示头部被masked。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）- 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
output_attentions（可选，bool）- 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states（bool，可选）- 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict（可选，bool）- 是否返回一个 ModelOutput 而不是一个普通元组。
start_positions（形状为(batch_size,)的torch.LongTensor，可选）- 用于计算标记跨度的开始位置（索引）的标签。位置被夹紧到序列的长度（sequence_length）。序列外的位置不会计入损失计算。
end_positions（形状为(batch_size,)的torch.LongTensor，可选）- 用于计算标记跨度的结束位置（索引）的标签。位置被夹紧到序列的长度（sequence_length）。序列外的位置不会计入损失计算。

transformers.modeling_outputs.QuestionAnsweringModelOutput 或tuple(torch.FloatTensor)

transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False时）包含各种元素，这取决于配置（GPTNeoXConfig）和输入。

loss（形状为(1,)的torch.FloatTensor，可选，当提供labels时返回）- 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits（形状为(batch_size, sequence_length)的torch.FloatTensor）- 跨度开始得分（SoftMax 之前）。
end_logits（形状为(batch_size, sequence_length)的torch.FloatTensor）- 跨度结束得分（SoftMax 之前）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出+每层的输出）。

模型在每一层输出的隐藏状态加上可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoXForQuestionAnswering 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会处理运行前后处理步骤，而后者会默默地忽略它们。

此示例使用随机模型，因为真实模型都非常庞大。为了获得正确的结果，您应该使用 EleutherAI/gpt-neox-20b，而不是 trl-internal-testing/tiny-random-GPTNeoXForCausalLM。如果在加载该检查点时出现内存不足的情况，可以尝试在from_pretrained调用中添加device_map="auto"。

示例：

>>> from transformers import AutoTokenizer, GPTNeoXForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM")
>>> model = GPTNeoXForQuestionAnswering.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss

GPTNeoXForSequenceClassification

`class transformers.GPTNeoXForSequenceClassification`

<源代码>

( config )

参数

config（~GPTNeoXConfig）— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

GPTNeoX 模型变压器，顶部带有序列分类头（线性层）。

GPTNeoXForSequenceClassification 使用最后一个标记进行分类，就像其他因果模型（例如 GPT-1）一样。

由于它在最后一个标记上进行分类，因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id，则会找到每行中不是填充标记的最后一个标记。如果未定义pad_token_id，则会简单地取批处理的每行中的最后一个值。当传递inputs_embeds而不是input_ids时，无法猜测填充标记，因此会执行相同操作（取批处理的每行中的最后一个值）。

该模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<源代码>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None inputs_embeds: Optional = None head_mask: Optional = None past_key_values: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids（形状为({0})的torch.LongTensor）— 词汇中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask（形状为({0})的torch.FloatTensor，可选）— 用于避免在填充标记索引上执行注意力的掩码。选择的掩码值在[0, 1]范围内：
- 1 表示未被“掩盖”的标记。
- 0 表示被“掩盖”的标记。
什么是注意力掩码？
position_ids（形状为({0})的torch.LongTensor，可选）— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部失效的掩码。选择的掩码值在[0, 1]范围内：
- 1 表示头部未被“掩盖”。
- 0 表示头部被“掩盖”。
inputs_embeds (torch.FloatTensor，形状为({0}, hidden_size)，optional) — 可选地，可以直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，这将很有用，而不是使用模型的内部嵌入查找矩阵。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量中的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量中的hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。
labels (torch.LongTensor，形状为(batch_size,)，optional) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1，则计算回归损失（均方损失），如果config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.SequenceClassifierOutputWithPast或torch.FloatTensor元组

包含各种元素的transformers.modeling_outputs.SequenceClassifierOutputWithPast或torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False）取决于配置（GPTNeoXConfig）和输入。

loss (torch.FloatTensor，形状为(1,)，optional, 当提供labels时返回) — 分类（如果config.num_labels==1则为回归）损失。
logits (torch.FloatTensor，形状为(batch_size, config.num_labels)) — 分类（如果config.num_labels==1则为回归）得分（SoftMax 之前）。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。

包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码（请参见past_key_values输入）。
hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor元组（一个用于嵌入层的输出，如果模型有嵌入层的话，+ 一个用于每一层的输出），形状为(batch_size, sequence_length, hidden_size)。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor元组（每一层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoXForSequenceClassification 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会负责运行前处理和后处理步骤，而后者会默默地忽略它们。

单标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTNeoXForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM")
>>> model = GPTNeoXForSequenceClassification.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPTNeoXForSequenceClassification.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTNeoXForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM")
>>> model = GPTNeoXForSequenceClassification.from_pretrained("trl-internal-testing/tiny-random-GPTNeoXForCausalLM", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPTNeoXForSequenceClassification.from_pretrained(
...     "trl-internal-testing/tiny-random-GPTNeoXForCausalLM", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

GPTNeoXForTokenClassification

`class transformers.GPTNeoXForTokenClassification`

<来源>

( config )

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为({0})的torch.LongTensor）- 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask（形状为({0})的torch.FloatTensor，可选）- 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]范围内：
- 对于未被屏蔽的标记为 1，
- 对于被屏蔽的标记为 0。
什么是注意力掩码？
position_ids（形状为({0})的torch.LongTensor，可选）- 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）- 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]范围内：
- 1 表示头部未被屏蔽，
- 0 表示头部被屏蔽。
inputs_embeds（形状为({0}, hidden_size)的torch.FloatTensor，可选）- 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，这将非常有用，而不是使用模型的内部嵌入查找矩阵。
output_attentions（bool，可选）- 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回的张量下的attentions。
output_hidden_states（bool，可选）- 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回的张量下的hidden_states。
return_dict（bool，可选）- 是否返回 ModelOutput 而不是普通元组。
labels（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1，则计算回归损失（均方损失），如果config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.TokenClassifierOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或当config.return_dict=False时）包含根据配置（GPTNeoXConfig）和输入的不同元素。

loss（形状为(1,)的torch.FloatTensor，可选，在提供labels时返回）- 分类损失。
logits（形状为(batch_size, sequence_length, config.num_labels)的torch.FloatTensor）- 分类分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可选的, 当传递 output_hidden_states=True 或者当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则为嵌入的输出 + 每层的输出）。

模型在每一层输出的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选的, 当传递 output_attentions=True 或者当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoXForTokenClassification 的前向方法，覆盖了 __call__ 特殊方法。

虽然前向传递的配方需要在这个函数内定义，但应该在此之后调用 Module 实例，而不是这个函数，因为前者会处理运行前后处理步骤，而后者会默默地忽略它们。

例如：

>>> from transformers import AutoTokenizer, GPTNeoXForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("LarsJonasson/pythia-410m-deduped-sft-swedish")
>>> model = GPTNeoXForTokenClassification.from_pretrained("LarsJonasson/pythia-410m-deduped-sft-swedish")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
0.25

GPT-NeoX-Japanese

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/gpt_neox_japanese

概述

我们介绍了 GPT-NeoX-Japanese，这是一个针对日语的自回归语言模型，是在github.com/EleutherAI/gpt-neox的基础上训练的。日语是一种具有大量词汇和平假名、片假名和汉字书写系统组合的独特语言。为了解决日语这种独特结构，我们使用了特殊的子词标记器。我们非常感谢tanreinama开源了这个非常有帮助的标记器。根据谷歌关于PaLM的研究建议，我们从变压器块中删除了偏置参数，实现了更好的模型性能。请详细参阅此文章。

该模型的开发由Shinya Otani、Takayoshi Makabe、Anuj Arora和Kyo Hattori领导，来自ABEJA, Inc.。有关此模型构建活动的更多信息，请参阅此处（ja）。

使用示例

generate()方法可用于使用 GPT NeoX Japanese 模型生成文本。

>>> from transformers import GPTNeoXJapaneseForCausalLM, GPTNeoXJapaneseTokenizer

>>> model = GPTNeoXJapaneseForCausalLM.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> tokenizer = GPTNeoXJapaneseTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")

>>> prompt = "人とAIが協調するためには、"

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids

>>> gen_tokens = model.generate(
...     input_ids,
...     do_sample=True,
...     temperature=0.9,
...     max_length=100,
... )
>>> gen_text = tokenizer.batch_decode(gen_tokens, skip_special_tokens=True)[0]

>>> print(gen_text)
人とAIが協調するためには、AIと人が共存し、AIを正しく理解する必要があります。

资源

因果语言建模任务指南

GPTNeoXJapaneseConfig

`class transformers.GPTNeoXJapaneseConfig`

< source >

( vocab_size = 32000 hidden_size = 2560 num_hidden_layers = 32 num_attention_heads = 32 intermediate_multiple_size = 4 hidden_act = 'gelu' rotary_pct = 1.0 rotary_emb_base = 10000 max_position_embeddings = 2048 initializer_range = 0.02 layer_norm_eps = 1e-05 use_cache = True bos_token_id = 31996 eos_token_id = 31999 attention_dropout = 0.1 hidden_dropout = 0.0 **kwargs )

参数

vocab_size (int, optional, defaults to 32000) — GPTNeoXJapanese 模型的词汇大小。定义了在调用GPTNeoXJapanese时传递的inputs_ids可以表示的不同标记数量。
hidden_size (int, optional, defaults to 2560) — 编码器层和池化器层的维度。
num_hidden_layers (int, optional, defaults to 32) — Transformer 编码器中的隐藏层数量。
num_attention_heads (int, optional, defaults to 32) — Transformer 编码器中每个注意力层的注意力头数。
intermediate_multiple_size (int, optional, defaults to 4) — Transformer 编码器中“中间”层的维度由hidden_size * intermediate_multiple_size计算。
hidden_act (str or function, optional, defaults to "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。
rotary_pct (float, optional, defaults to 1.00) — 隐藏维度分配给旋转嵌入的百分比。
rotary_emb_base (int, optional, defaults to 10000) — 用于计算旋转嵌入频率的基数。
max_position_embeddings (int, optional, defaults to 2048) — 该模型可能使用的最大序列长度。
initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
layer_norm_eps (float, optional, defaults to 1e-5) — 层归一化层使用的 epsilon。
use_cache (bool, optional, defaults to True) — 模型是否应返回最后的键/值注意力（不是所有模型都使用）。仅在config.is_decoder=True时相关。
attention_dropout (float, optional, defaults to 0.1) — 注意力的 dropout 比率。
hidden_dropout (float, optional, defaults to 0.0) — 隐藏层的 dropout 比率。示例 —

这是用于存储GPTNeoXModelJapanese配置的配置类。它用于根据指定的参数实例化一个 GPTNeoX 模型，定义模型架构。使用默认值实例化配置将产生类似于 GPTNeoXJapanese abeja/gpt-neox-japanese-2.7b架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。默认配置设置为 2.7B 模型

>>> from transformers import GPTNeoXJapaneseConfig, GPTNeoXJapaneseModel

>>> # Initializing a GPTNeoXJapanese gpt-neox-japanese-2.7b style configuration
>>> configuration = GPTNeoXJapaneseConfig()

>>> # Initializing a model (with random weights) from the gpt-neox-japanese-2.7b style configuration
>>> model = GPTNeoXJapaneseModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

GPTNeoXJapaneseTokenizer

`class transformers.GPTNeoXJapaneseTokenizer`

<来源>

( vocab_file emoji_file unk_token = '<|endoftext|>' pad_token = '<|endoftext|>' bos_token = '<|startoftext|>' eos_token = '<|endoftext|>' do_clean_text = False **kwargs )

参数

vocab_file（str）— 包含词汇表的文件。
emoji_file（str）— 包含表情符号的文件。
unk_token（str，optional，默认为"<|endoftext|>"）--未知令牌。词汇表中没有的令牌无法转换为 ID，而是设置为该令牌。
pad_token（str，optional，默认为"<|endoftext|>"）--用于填充的令牌
bos_token（str，optional，默认为"<|startoftext|>"）--序列标记的开头。
eos_token（str，optional，默认为"<|endoftext|>"）--序列结束标记。
do_clean_text（bool，可选，默认为False）— 是否清理文本以用于 URL、EMAIL、TEL、日本日期和日本价格。

此分词器继承自 PreTrainedTokenizer，基于用于此存储库的日语特殊子词编码（github.com/tanreinama/Japanese-BPEEncoder_V2）。查看存储库以获取详细信息。日语具有相对较大的词汇量，单词之间没有分隔。此外，该语言是平假名、片假名和汉字的组合，经常使用变体如“1”和“①”。为了应对这些情况，此分词器具有以下特点

逐字分割，介于字节字符串和形态分析之间。
为每个汉字、平假名和片假名字符创建 BPE，并且没有跨字符类型的 BPE，例如汉字+平假名或平假名+片假名。
不需要的全字节编码。
独立于 2 字节和 3 字节字符等 UTF 代码
异体字转换为相同的标记 ID
表情符号和表情符号被分为 12 种类型作为特殊标签。

示例：

>>> from transformers import GPTNeoXJapaneseTokenizer

>>> tokenizer = GPTNeoXJapaneseTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> # You can confirm both 慶応 and 慶應 are encoded to 17749
>>> tokenizer("吾輩は猫である🐯。実は慶応(慶應)大学出身")["input_ids"]
[30014, 26883, 26638, 27228, 25, 26650, 31732, 31679, 27809, 26638, 17749, 31592, 17749, 31593, 321, 1281]

>>> # Both 慶応 and 慶應 are decoded to 慶応
>>> tokenizer.decode(tokenizer("吾輩は猫である🐯。実は慶応(慶應)大学出身")["input_ids"])
'吾輩は猫である🐯。実は慶応(慶応)大学出身'

`convert_tokens_to_string`

<来源>

( tokens )

将一系列标记（字符串）转换为单个字符串。

GPTNeoXJapaneseModel

`class transformers.GPTNeoXJapaneseModel`

<来源>

( config )

参数

config（~GPTNeoXJapaneseConfig）— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

裸的 GPTNeoXJapanese 模型变压器输出原始隐藏状态，没有特定的头部。此模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有信息。

`forward`

<来源>

( input_ids: Optional = None attention_mask: Optional = None head_mask: Optional = None inputs_embeds: Optional = None past_key_values: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免在填充标记索引上执行注意力的掩码。掩码值选择在 [0, 1] 中：
- 1 表示未被 masked 的标记，
- 0 表示被 masked 的标记。
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 段标记索引，指示输入的第一部分和第二部分。索引在 [0, 1] 中选择：
- 0 对应于 句子 A 标记，
- 1 对应于 句子 B 标记。
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值选择在 [0, 1] 之间：
- 1 表示头部未被 masked，
- 0 表示头部被 masked。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示而不是传递 input_ids。如果您想要更多控制权来将 input_ids 索引转换为相关向量，这将非常有用，而不是使用模型的内部嵌入查找矩阵。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回的张量下的 attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回的张量下的 hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。
past_key_values (tuple(tuple(torch.FloatTensor))，长度为 config.n_layers，每个元组有 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的张量） — 包含注意力块的预计算键和值隐藏状态。可用于加速解码。如果使用了 past_key_values，用户可以选择仅输入最后的 decoder_input_ids（这些没有将它们的过去键值状态提供给此模型的）的形状为 (batch_size, 1) 的张量，而不是形状为 (batch_size, sequence_length) 的所有 decoder_input_ids。
use_cache (bool, optional) — 如果设置为 True，则返回 past_key_values 键值状态，并可用于加速解码（参见 past_key_values）。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPast 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或当 config.return_dict=False 时）包含根据配置（GPTNeoXJapaneseConfig）和输入的不同元素。

last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。

如果使用了 past_key_values，则仅输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递 use_cache=True 或者当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量，如果 config.is_encoder_decoder=True 还有 2 个额外的形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的张量。

包含预先计算的隐藏状态（自注意力块中的键和值，以及在交叉注意力块中可选地如果 config.is_encoder_decoder=True）可以使用（请参见 past_key_values 输入）以加快顺序解码。
hidden_states (tuple(torch.FloatTensor), optional, 当传递 output_hidden_states=True 或者当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则为嵌入的输出 + 每层的输出）。

模型在每一层的输出处的隐藏状态加上可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递 output_attentions=True 或者当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoXJapaneseModel 前向方法，覆盖了 __call__ 特殊方法。

虽然前向传递的配方需要在此函数内定义，但应该在此之后调用 Module 实例，而不是在此之后调用，因为前者负责运行预处理和后处理步骤，而后者则会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPTNeoXJapaneseModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> model = GPTNeoXJapaneseModel.from_pretrained("abeja/gpt-neox-japanese-2.7b")

>>> inputs = tokenizer("日本語のGPT-neoxがHugging Faceで使えます😀", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

GPTNeoXJapaneseForCausalLM

`class transformers.GPTNeoXJapaneseForCausalLM`

< source >

( config )

参数

config (~GPTNeoXJapaneseConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained() 方法以加载模型权重。

GPTNeoXJapanese 模型在顶部具有用于分类模型微调的 语言建模 头。此模型是 PyTorch torch.nn.Module 的子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

< source >

( input_ids: Optional = None attention_mask: Optional = None inputs_embeds: Optional = None head_mask: Optional = None past_key_values: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列令牌的索引。

可以使用 AutoTokenizer 获取索引。
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在填充令牌索引上执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 用于 not masked 的令牌，
- 0 用于 masked 的令牌。
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 段落令牌索引，用于指示输入的第一部分和第二部分。索引在 [0, 1] 中选择：
- 0 对应于 句子 A 令牌，
- 1 对应于 句子 B 令牌。
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部无效的掩码。在[0, 1]中选择的掩码值：
- 1 表示头部未被掩盖，
- 0 表示头部被掩盖。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）— 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权，以便将input_ids索引转换为相关向量，而不是模型的内部嵌入查找矩阵。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回 ModelOutput 而不是普通元组。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回）— 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。当模型用作序列到序列模型中的解码器时，只有在需要时才需要这两个额外的张量。

包含预先计算的隐藏状态（自注意力块中的键和值，可用于加速顺序解码（请参见past_key_values输入）。

如果使用了past_key_values，用户可以选择仅输入最后的decoder_input_ids（这些没有将其过去的键值状态提供给此模型）的形状为(batch_size, 1)的张量，而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
labels（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 用于计算从左到右的语言建模损失（下一个词预测）的标签。索引应在[-100, 0, ..., config.vocab_size]（请参见input_ids文档字符串）中。索引设置为-100的标记将被忽略（掩盖），仅对标签为[0, ..., config.vocab_size]的标记计算损失。
use_cache（bool，可选）— 如果设置为True，则返回past_key_values键值状态，可用于加速解码（请参见past_key_values）。

transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False时）包括根据配置（GPTNeoXJapaneseConfig）和输入的不同元素。

loss（形状为(1,)的torch.FloatTensor，可选，当提供labels时返回）— 语言建模损失（用于下一个标记预测）。
logits（形状为(batch_size, sequence_length, config.vocab_size)的torch.FloatTensor）— 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回） — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量）

包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码（参见past_key_values输入）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回） — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（一个用于嵌入的输出，如果模型有一个嵌入层，+ 一个用于每一层的输出）。

模型在每一层输出的隐藏状态加上可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTNeoXJapaneseForCausalLM 的前向方法重写了__call__特殊方法。

尽管前向传递的配方需要在此函数内定义，但应该在此之后调用Module实例，而不是这个，因为前者负责运行预处理和后处理步骤，而后者则默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPTNeoXJapaneseForCausalLM, GPTNeoXJapaneseConfig
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> config = GPTNeoXJapaneseConfig.from_pretrained("abeja/gpt-neox-japanese-2.7b")
>>> config.is_decoder = True
>>> model = GPTNeoXJapaneseForCausalLM.from_pretrained("abeja/gpt-neox-japanese-2.7b", config=config)

>>> inputs = tokenizer("日本語のGPT-neoxがHugging Faceで使えます😀", return_tensors="pt")
>>> outputs = model(**inputs)

>>> prediction_logits = outputs.logits

GPT-J

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/gptj

概述

GPT-J 模型是由 Ben Wang 和 Aran Komatsuzaki 在kingoflolz/mesh-transformer-jax存储库中发布的。它是在Pile数据集上训练的类似 GPT-2 的因果语言模型。

此模型由Stella Biderman贡献。

使用提示

要在 float32 中加载GPT-J，至少需要 2 倍模型大小的 RAM：1 倍用于初始权重，另外 1 倍用于加载检查点。因此，对于 GPT-J，至少需要 48GB RAM 才能加载模型。为了减少 RAM 使用量，有几个选项。torch_dtype参数可用于在仅 CUDA 设备上以半精度初始化模型。还有一个存储 fp16 权重的 fp16 分支，可用于进一步最小化 RAM 使用量：

>>> from transformers import GPTJForCausalLM
>>> import torch

>>> device = "cuda"
>>> model = GPTJForCausalLM.from_pretrained(
...     "EleutherAI/gpt-j-6B",
...     revision="float16",
...     torch_dtype=torch.float16,
... ).to(device)

该模型应适合在 16GB GPU 上进行推断。对于训练/微调，将需要更多的 GPU RAM。例如，Adam 优化器会复制模型的四份副本：模型、梯度、平均梯度和梯度的平方平均值。因此，即使使用混合精度，梯度更新也是在 fp32 中，至少需要 4 倍模型大小的 GPU 内存。这还不包括激活和数据批次，这将再次需要更多的 GPU RAM。因此，应该探索解决方案，如 DeepSpeed，来训练/微调模型。另一个选项是使用原始代码库在 TPU 上训练/微调模型，然后将模型转换为 Transformers 格式进行推断。有关说明，请参阅此处。
尽管嵌入矩阵的大小为 50400，但 GPT-2 标记器仅使用 50257 个条目。这些额外的代币是为了提高 TPU 的效率而添加的。为了避免嵌入矩阵大小和 vocab 大小之间的不匹配，GPT-J的标记化器包含 143 个额外的令牌<|extratoken_1|>, ..., <|extratoken_143|>，因此tokenizer的vocab_size也变为 50400。

使用示例

generate() 方法可用于使用 GPT-J 模型生成文本。

>>> from transformers import AutoModelForCausalLM, AutoTokenizer

>>> model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-j-6B")
>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")

>>> prompt = (
...     "In a shocking finding, scientists discovered a herd of unicorns living in a remote, "
...     "previously unexplored valley, in the Andes Mountains. Even more surprising to the "
...     "researchers was the fact that the unicorns spoke perfect English."
... )

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids

>>> gen_tokens = model.generate(
...     input_ids,
...     do_sample=True,
...     temperature=0.9,
...     max_length=100,
... )
>>> gen_text = tokenizer.batch_decode(gen_tokens)[0]

...或者使用 float16 精度：

>>> from transformers import GPTJForCausalLM, AutoTokenizer
>>> import torch

>>> device = "cuda"
>>> model = GPTJForCausalLM.from_pretrained("EleutherAI/gpt-j-6B", torch_dtype=torch.float16).to(device)
>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")

>>> prompt = (
...     "In a shocking finding, scientists discovered a herd of unicorns living in a remote, "
...     "previously unexplored valley, in the Andes Mountains. Even more surprising to the "
...     "researchers was the fact that the unicorns spoke perfect English."
... )

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

>>> gen_tokens = model.generate(
...     input_ids,
...     do_sample=True,
...     temperature=0.9,
...     max_length=100,
... )
>>> gen_text = tokenizer.batch_decode(gen_tokens)[0]

资源

一份官方 Hugging Face 和社区资源（由🌎表示），帮助您开始使用 GPT-J。如果您有兴趣提交资源以包含在此处，请随时提出拉取请求，我们将进行审查！资源应该最好展示一些新内容，而不是重复现有资源。

文本生成

GPT-J的描述。
一篇关于如何使用 Hugging Face Transformers 和 Amazon SageMaker 部署 GPT-J 6B 进行推断的博客。
一篇关于如何使用 DeepSpeed-Inference 在 GPU 上加速 GPT-J 推断的博客。
一篇介绍GPT-J-6B：6B 基于 JAX 的 Transformer的博客。🌎
一个用于GPT-J-6B 推断演示的笔记本。🌎
另一个演示笔记本：使用 GPT-J-6B 进行推断。
🤗 Hugging Face 课程的因果语言建模章节。
GPTJForCausalLM 可通过这个因果语言建模示例脚本、文本生成示例脚本和笔记本进行支持。
TFGPTJForCausalLM 由这个因果语言建模示例脚本和笔记本支持。
FlaxGPTJForCausalLM 由这个因果语言建模示例脚本和笔记本支持。

文档资源

文本分类任务指南
问答任务指南
因果语言建模任务指南

GPTJConfig

`class transformers.GPTJConfig`

<来源>

( vocab_size = 50400 n_positions = 2048 n_embd = 4096 n_layer = 28 n_head = 16 rotary_dim = 64 n_inner = None activation_function = 'gelu_new' resid_pdrop = 0.0 embd_pdrop = 0.0 attn_pdrop = 0.0 layer_norm_epsilon = 1e-05 initializer_range = 0.02 use_cache = True bos_token_id = 50256 eos_token_id = 50256 tie_word_embeddings = False **kwargs )

参数

vocab_size (int, optional, 默认为 50400) — GPT-J 模型的词汇量。定义在调用 GPTJModel 时可以表示的不同标记数量。
n_positions (int, optional, 默认为 2048) — 该模型可能使用的最大序列长度。通常将其设置为较大的值以防万一（例如 512、1024 或 2048）。
n_embd (int, optional, 默认为 4096) — 嵌入和隐藏状态的维度。
n_layer (int, optional, 默认为 28) — Transformer 编码器中的隐藏层数量。
n_head (int, optional, 默认为 16) — Transformer 编码器中每个注意力层的注意力头数量。
rotary_dim (int, optional, 默认为 64) — 旋转位置嵌入应用的嵌入维度数量。
n_inner (int, optional, 默认为 None) — 内部前馈层的维度。None将设置为 4 倍的 n_embd。
activation_function (str, optional, 默认为"gelu_new") — 激活函数，可在列表["relu", "silu", "gelu", "tanh", "gelu_new"]中选择。
resid_pdrop (float, optional, 默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。
embd_pdrop (int, optional, 默认为 0.1) — 嵌入的 dropout 比率。
attn_pdrop (float, optional, 默认为 0.1) — 注意力的 dropout 比率。
layer_norm_epsilon (float, optional, 默认为 1e-5) — 在层归一化层中使用的 epsilon。
initializer_range (float, optional, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
use_cache (bool, optional, 默认为True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。

这是一个配置类，用于存储 GPTJModel 的配置。根据指定的参数实例化一个 GPT-J 模型，定义模型架构。使用默认值实例化配置将产生类似于 GPT-J EleutherAI/gpt-j-6B架构的配置。配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例：

>>> from transformers import GPTJModel, GPTJConfig

>>> # Initializing a GPT-J 6B configuration
>>> configuration = GPTJConfig()

>>> # Initializing a model from the configuration
>>> model = GPTJModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

PytorchHide Pytorch content

GPTJModel

`class transformers.GPTJModel`

<来源>

( config )

参数

config (GPTJConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

裸 GPT-J 模型变压器，输出原始隐藏状态，没有特定的头部。这个模型是 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.FloatTensor，形状为(batch_size, sequence_length)，optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值在[0, 1]中选择：
- 1 表示未被掩盖的标记，
- 0 表示被掩盖的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 段标记索引，指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.n_positions - 1]中选择。

什么是位置 ID？
head_mask (torch.FloatTensor，形状为(num_attention_heads,)或(n_layer, num_attention_heads)，optional) — 用于使自注意力模块的特定头部失效的掩码。掩码值在[0, 1]中选择：
- 1 表示头部未被掩盖，
- 0 表示头部被掩盖。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_dim)，optional) — 可选地，可以直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
output_attentions (bool，optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states (bool，optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_outputs.BaseModelOutputWithPast 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPast 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False）包含根据配置（GPTJConfig）和输入的不同元素。

last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor）- 模型最后一层输出的隐藏状态序列。

如果仅使用past_key_values，则输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回）- 长度为config.n_layers的元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量，如果config.is_encoder_decoder=True，还有 2 个额外形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。

包含预先计算的隐藏状态（自注意力块中的键和值，以及如果config.is_encoder_decoder=True在交叉注意力块中）可用于加速顺序解码的（见past_key_values输入）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型具有嵌入层，则为嵌入输出的输出+每层的输出）。

模型每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTJModel 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在之后调用Module实例，而不是在此处调用，因为前者会负责运行预处理和后处理步骤，而后者会默默忽略它们。

此示例使用一个随机模型，真实模型都非常庞大。为了获得正确的结果，应该使用 EleutherAI/gpt-j-6B 而不是 hf-internal-testing/tiny-random-gptj。如果加载该检查点时出现内存不足，可以尝试在from_pretrained调用中添加device_map="auto"。

示例：

>>> from transformers import AutoTokenizer, GPTJModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("hf-internal-testing/tiny-random-gptj")
>>> model = GPTJModel.from_pretrained("hf-internal-testing/tiny-random-gptj")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

GPTJForCausalLM

`class transformers.GPTJForCausalLM`

<来源>

( config )

参数

config（GPTJConfig）- 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

在顶部具有语言建模头的 GPT-J 模型变换器。

该模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, sequence_length)的torch.LongTensor）— 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）— 用于避免在填充标记索引上执行注意力的蒙版。蒙版值选择在[0, 1]中：
- 1 表示“未屏蔽”的标记，
- 0 表示“已屏蔽”的标记。
什么是注意力蒙版？
token_type_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 段标记索引，指示输入的第一部分和第二部分。索引选择在[0, 1]中：
- 0 对应于句子 A标记。
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 每个输入序列标记的位置索引。在范围[0, config.n_positions - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_attention_heads,)或(n_layer, num_attention_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部无效的蒙版。蒙版值选择在[0, 1]中：
- 1 表示头部“未屏蔽”，
- 0 表示头部“已屏蔽”。
inputs_embeds（形状为(batch_size, sequence_length, hidden_dim)的torch.FloatTensor，可选）— 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权，以便将input_ids索引转换为相关向量，而不是模型的内部嵌入查找矩阵，则这很有用。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回一个 ModelOutput 而不是一个普通元组。
labels（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 用于语言建模的标签。请注意，标签在模型内部被移位，即您可以设置labels = input_ids。索引选择在[-100, 0, ..., config.vocab_size]中，所有设置为-100的标签都将被忽略（屏蔽），损失仅计算标签在[0, ..., config.vocab_size]中的标签

transformers.modeling_outputs.CausalLMOutputWithPast 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False时）包含各种元素，具体取决于配置（GPTJConfig）和输入。

loss（形状为(1,)的torch.FloatTensor，可选，在提供labels时返回）— 语言建模损失（用于下一个标记预测）。
logits (torch.FloatTensor，形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, returned when use_cache=True is passed or when config.use_cache=True) — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。

包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码（参见past_key_values输入）。
hidden_states (tuple(torch.FloatTensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出 + 每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

模型在每个层的输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — torch.FloatTensor元组（每个层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

在注意力 SoftMax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTJForCausalLM 的前向方法重写了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在之后调用Module实例而不是此函数，因为前者会处理运行前后处理步骤，而后者会默默忽略它们。

此示例使用随机模型，真实模型都非常庞大。为了获得正确的结果，应该使用 EleutherAI/gpt-j-6B 而不是 hf-internal-testing/tiny-random-gptj。如果加载该检查点时出现内存不足，可以尝试在from_pretrained调用中添加device_map="auto"。

示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTJForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("hf-internal-testing/tiny-random-gptj")
>>> model = GPTJForCausalLM.from_pretrained("hf-internal-testing/tiny-random-gptj")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

GPTJForSequenceClassification

`class transformers.GPTJForSequenceClassification`

<来源>

( config )

参数

config (GPTJConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

带有顶部序列分类头（线性层）的 GPT-J 模型变压器。

GPTJForSequenceClassification 使用最后一个标记进行分类，就像其他因果模型（例如 GPT、GPT-2、GPT-Neo）一样。

由于它对最后一个标记进行分类，因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id，则会找到每行中不是填充标记的最后一个标记。如果未定义pad_token_id，则会简单地取每行批次中的最后一个值。当传递inputs_embeds而不是input_ids时，无法猜测填充标记，因此会执行相同操作（取每行批次中的最后一个值）。

此模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, sequence_length)的torch.LongTensor）- 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 来获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）- 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]范围内：
- 对于未被masked的标记为 1，
- 对于被masked的标记为 0。
什么是注意力掩码？
token_type_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 段标记索引，指示输入的第一部分和第二部分。索引选在[0, 1]范围内：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.n_positions - 1]内选择。

什么是位置 ID？
head_mask（形状为(num_attention_heads,)或(n_layer, num_attention_heads)的torch.FloatTensor，可选）- 用于使自注意力模块的选定头部失效的掩码。掩码值选在[0, 1]范围内：
- 1 表示头部未被masked，
- 0 表示头部被masked。
inputs_embeds（形状为(batch_size, sequence_length, hidden_dim)的torch.FloatTensor，可选）- 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您希望更多地控制如何将input_ids索引转换为相关向量，这将非常有用，而不是使用模型的内部嵌入查找矩阵。
output_attentions（bool，可选）- 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states（bool，可选）- 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict（bool，可选）- 是否返回 ModelOutput 而不是普通元组。
labels（形状为(batch_size,)的torch.LongTensor，可选）- 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1，则计算回归损失（均方损失），如果config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.SequenceClassifierOutputWithPast或tuple(torch.FloatTensor)

一个transformers.modeling_outputs.SequenceClassifierOutputWithPast或一个torch.FloatTensor元组（如果传递了return_dict=False或当config.return_dict=False时），包括根据配置（GPTJConfig）和输入的不同元素。

loss（形状为(1,)的torch.FloatTensor，可选，当提供labels时返回）- 分类（或回归，如果config.num_labels==1）损失。
logits（形状为(batch_size, config.num_labels)的torch.FloatTensor）- 分类（或回归，如果config.num_labels==1）分数（SoftMax 之前）。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回）— 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量）

包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码（请参阅past_key_values输入）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（用于嵌入的输出，如果模型有一个嵌入层，则为一个 + 每层的输出）。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTJForSequenceClassification 的前向方法覆盖了__call__特殊方法。

尽管前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行前后处理步骤，而后者会默默地忽略它们。

此示例使用随机模型，真实模型都非常庞大。为了获得正确的结果，您应该使用 EleutherAI/gpt-j-6B 而不是 ydshieh/tiny-random-gptj-for-sequence-classification。如果加载该检查点时出现内存不足，可以尝试在from_pretrained调用中添加device_map="auto"。

单标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTJForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("ydshieh/tiny-random-gptj-for-sequence-classification")
>>> model = GPTJForSequenceClassification.from_pretrained("ydshieh/tiny-random-gptj-for-sequence-classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPTJForSequenceClassification.from_pretrained("ydshieh/tiny-random-gptj-for-sequence-classification", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPTJForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("ydshieh/tiny-random-gptj-for-sequence-classification")
>>> model = GPTJForSequenceClassification.from_pretrained("ydshieh/tiny-random-gptj-for-sequence-classification", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPTJForSequenceClassification.from_pretrained(
...     "ydshieh/tiny-random-gptj-for-sequence-classification", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

GPTJForQuestionAnswering

`class transformers.GPTJForQuestionAnswering`

<来源>

( config )

参数

config（GPTJConfig）— 具有模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

GPT-J 模型变压器，顶部带有用于提取问答任务的跨度分类头，如 SQuAD（在隐藏状态输出的线性层上计算跨度起始 logits和跨度结束 logits）。

该模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, sequence_length)的torch.LongTensor）— 词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 来获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (torch.FloatTensor，形状为(batch_size, sequence_length)，optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选定在[0, 1]范围内：
- 1 用于未被掩码的标记，
- 0 用于masked的标记。
什么是注意力掩码？
token_type_ids (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 段标记索引，指示输入的第一部分和第二部分。索引选定在[0, 1]范围内：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.n_positions - 1]内选定。

什么是位置 ID？
head_mask (torch.FloatTensor，形状为(num_attention_heads,)或(n_layer, num_attention_heads)，optional) — 用于使自注意力模块的选定头部失效的掩码。掩码值选定在[0, 1]范围内：
- 1 表示头部未被masked，
- 0 表示头部被masked。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_dim)，optional) — 可选地，您可以选择直接传递嵌入表示而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量，这将非常有用，而不是使用模型的内部嵌入查找矩阵。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states (bool，optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool，optional) — 是否返回 ModelOutput 而不是普通元组。
start_positions (torch.LongTensor，形状为(batch_size,)，optional) — 用于计算标记分类损失的标记跨度开始位置（索引）的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会计入损失的计算。
end_positions (torch.LongTensor，形状为(batch_size,)，optional) — 用于计算标记分类损失的标记跨度结束位置（索引）的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会计入损失的计算。

transformers.modeling_outputs.QuestionAnsweringModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或当config.return_dict=False时）包含根据配置（GPTJConfig）和输入的不同元素。

loss (torch.FloatTensor，形状为(1,)，optional，当提供labels时返回) — 总跨度提取损失是起始和结束位置的交叉熵之和。
start_logits (torch.FloatTensor，形状为(batch_size, sequence_length)) — 跨度开始分数（SoftMax 之前）。
end_logits (torch.FloatTensor，形状为(batch_size, sequence_length)) — 跨度结束分数（SoftMax 之前）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回） - 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型具有嵌入层的输出一个，+每个层的输出一个）。

模型在每个层的输出的隐藏状态加上可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回） - 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每个层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

GPTJForQuestionAnswering 前向方法，覆盖__call__特殊方法。

尽管前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会负责运行预处理和后处理步骤，而后者会默默忽略它们。

此示例使用随机模型，因为真实模型都非常庞大。为了获得正确的结果，您应该使用 EleutherAI/gpt-j-6B 而不是 hf-internal-testing/tiny-random-gptj。如果加载该检查点时出现内存不足，可以尝试在from_pretrained调用中添加device_map="auto"。

示例：

>>> from transformers import AutoTokenizer, GPTJForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("hf-internal-testing/tiny-random-gptj")
>>> model = GPTJForQuestionAnswering.from_pretrained("hf-internal-testing/tiny-random-gptj")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss

TensorFlow 隐藏 TensorFlow 内容

TFGPTJModel

`class transformers.TFGPTJModel`

<来源>

( config *inputs **kwargs )

参数

config（GPTJConfig） - 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

裸的 GPT-J 模型变压器输出原始隐藏状态，没有特定的头部。

此模型继承自 TFPreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

此模型也是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），
将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是，当将输入传递给模型和层时，Keras 方法更喜欢这种格式。由于这种支持，当使用诸如model.fit()之类的方法时，应该会“正常工作” - 只需以model.fit()支持的任何格式传递您的输入和标签！但是，如果您想在 Keras 方法之外使用第二种格式，比如在使用 Keras Functional API 创建自己的层或模型时，有三种可能性可以用来收集第一个位置参数中的所有输入张量：

一个仅包含input_ids的单个张量，没有其他内容：model(input_ids)
一个长度可变的列表，其中包含一个或多个输入张量，按照文档字符串中给定的顺序：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个包含与文档字符串中给定的输入名称相关联的一个或多个输入张量的字典：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您无需担心任何这些，因为您可以像对待任何其他 Python 函数一样传递输入！

`call`

<来源>

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFBaseModelOutputWithPast or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, input_ids_length)的Numpy 数组或tf.Tensor）— input_ids_length = 如果past为None，则为sequence_length，否则为past[0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past，则只应将未计算其过去的输入 ID 作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参见 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values（长度为config.n_layers的List[tf.Tensor]）— 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如下面的past输出所示。可用于加速顺序解码。已将其过去给予该模型的令牌 ID 不应作为输入 ID 传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor或Numpy 数组，可选）— 用于避免在填充标记索引上执行注意力的掩码。选定的掩码值在[0, 1]中：
- 对于“未被掩盖”的标记，
- 0 对应于被“掩盖”的标记。
什么是注意力掩码？
token_type_ids（形状为(batch_size, sequence_length)的tf.Tensor或Numpy 数组，可选）— 段标记索引，指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的tf.Tensor或Numpy 数组，可选）— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的Numpy 数组或tf.Tensor，可选）— 用于使自注意力模块的选定头部失效的掩码。选定的掩码值在[0, 1]中：
- 1 表示头部未被“掩盖”，
- 0 表示头部被“掩盖”。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor，可选）— 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权，以便将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回的张量下的attentions。此参数仅在急切模式下使用，在图模式中将使用配置中的值。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回的张量下的hidden_states。此参数仅在急切模式下使用，在图模式中将使用配置中的值。
return_dict（bool，可选）— 是否返回一个 ModelOutput 而不是一个普通元组。此参数可在急切模式下使用，在图模式下该值将始终设置为 True。
training（bool，可选，默认为False）— 是否在训练模式下使用模型（一些模块如 dropout 模块在训练和评估之间有不同的行为）。
use_cache（bool，可选，默认为True）— 如果设置为True，则返回past_key_values键值状态，可用于加速解码（参见past）。在训练期间设置为False，在生成期间设置为True。

transformers.modeling_tf_outputs.TFBaseModelOutputWithPast 或tuple(tf.Tensor)

transformers.modeling_tf_outputs.TFBaseModelOutputWithPast 或一个tf.Tensor元组（如果传递return_dict=False或config.return_dict=False，则返回）包含根据配置（GPTJConfig）和输入的各种元素。

last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor）—模型最后一层的隐藏状态序列。

如果使用past_key_values，则仅输出形状为(batch_size, 1, hidden_size)序列的最后一个隐藏状态。
past_key_values（List[tf.Tensor]，可选，当传递use_cache=True或config.use_cache=True时返回）— 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)）。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每个层的输出）。

模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。

注意力权重在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

TFGPTJModel 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的方法需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行前处理和后处理步骤，而后者会默默忽略它们。

示例：

>>> from transformers import AutoTokenizer, TFGPTJModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")
>>> model = TFGPTJModel.from_pretrained("EleutherAI/gpt-j-6B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFGPTJForCausalLM

`class transformers.TFGPTJForCausalLM`

< source >

( config *inputs **kwargs )

参数

config（GPTJConfig）—模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只加载配置。查看 from_pretrained()方法加载模型权重。

GPT-J 模型变压器，顶部带有语言建模头。

此模型继承自 TFPreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法（例如下载或保存，调整输入嵌入，修剪头等）。

此模型还是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取与一般用法和行为相关的所有事项。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

第二种格式得到支持的原因是，当将输入传递给模型和层时，Keras 方法更喜欢这种格式。由于这种支持，在使用诸如model.fit()之类的方法时，对您来说应该“只需工作” - 只需以model.fit()支持的任何格式传递您的输入和标签！但是，如果您想在 Keras 方法之外使用第二种格式，比如在使用 KerasFunctional API 创建自己的层或模型时，有三种可能性可以用来收集所有输入张量在第一个位置参数中：

一个仅包含input_ids的单个张量，没有其他内容：model(input_ids)
一个长度可变的列表，其中包含一个或多个输入张量，按照文档字符串中给定的顺序：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个包含与文档字符串中给定的输入名称相关联的一个或多个输入张量的字典：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您无需担心任何这些，因为您可以像对待任何其他 Python 函数一样传递输入！

`call`

< source >

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None labels: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFCausalLMOutputWithPast or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, input_ids_length)的Numpy array或tf.Tensor）- 如果past为None，则input_ids_length = sequence_length，否则input_ids_length = past[0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past，则只应将尚未计算其过去的输入 ID 作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values（长度为config.n_layers的List[tf.Tensor]）- 包含由模型计算的预先计算的隐藏状态（注意力块中的键和值）（请参见下面的past输出）。可用于加速顺序解码。已将其过去给定给此模型的标记 ID 不应作为输入 ID 传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor或Numpy array，可选）- 用于避免在填充标记索引上执行注意力的掩码。选择在[0, 1]中的掩码值：
- 1 表示未被掩码的标记，
- 0 表示被掩码的标记。
什么是注意力掩码？
token_type_ids（形状为(batch_size, sequence_length)的tf.Tensor或Numpy array，可选）- 段标记索引，指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是 token type IDs？
position_ids (tf.Tensor或Numpy 数组的形状为(batch_size, sequence_length)，optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask (Numpy 数组或tf.Tensor的形状为(num_heads,)或(num_layers, num_heads)，optional) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]中：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您希望更多地控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。此参数可以在急切模式下使用，在图模式下该值将始终设置为 True。
training (bool, optional, 默认为False) — 是否在训练模式下使用模型（某些模块，如 dropout 模块，在训练和评估之间具有不同的行为）。
labels (np.ndarray或tf.Tensor的形状为(batch_size, sequence_length)，optional) — 用于语言建模的标签。请注意，模型内部的标签已经被移位，即您可以设置labels = input_ids。索引在[-100, 0, ..., config.vocab_size]中选择。所有设置为-100的标签都将被忽略（掩码），损失仅计算标签在[0, ..., config.vocab_size]中的情况。

transformers.modeling_tf_outputs.TFCausalLMOutputWithPast 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFCausalLMOutputWithPast 或一个tf.Tensor的元组（如果传递了return_dict=False或当config.return_dict=False时），包括根据配置（GPTJConfig）和输入的各种元素。

loss (tf.Tensor of shape (n,), optional, 其中 n 是非掩码标签的数量，在提供labels时返回) — 语言建模损失（用于下一个标记预测）。
logits (tf.Tensor的形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头部的预测分数（SoftMax 之前每个词汇标记的分数）。
past_key_values (List[tf.Tensor], optional, 当传递use_cache=True或当config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)）。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码（请参见past_key_values输入）。
hidden_states (tuple(tf.Tensor), 可选的, 当传递output_hidden_states=True或者当config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每层的输出）。

模型在每一层的输出处的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), 可选的, 当传递output_attentions=True或者当config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。

在自注意力头中用于计算加权平均值的注意力权重在注意力 softmax 之后。

TFGPTJForCausalLM 的前向方法覆盖了__call__特殊方法。

虽然前向传递的步骤需要在这个函数内定义，但应该在之后调用Module实例，而不是这个函数，因为前者会处理运行前后的处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, TFGPTJForCausalLM
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")
>>> model = TFGPTJForCausalLM.from_pretrained("EleutherAI/gpt-j-6B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> logits = outputs.logits

TFGPTJForSequenceClassification

`class transformers.TFGPTJForSequenceClassification`

< source >

( config *inputs **kwargs )

参数

config（GPTJConfig） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

GPT-J 模型变压器顶部带有序列分类头（线性层）。

GPTJForSequenceClassification 使用最后一个标记来进行分类，就像其他因果模型（例如 GPT、GPT-2、GPT-Neo）一样。

由于它在最后一个标记上进行分类，因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id，它会找到每行中不是填充标记的最后一个标记。如果没有定义pad_token_id，它会简单地取每行批次中的最后一个值。由于在传递inputs_embeds而不是input_ids时无法猜测填充标记，它会执行相同的操作（取每行批次中的最后一个值）。

此模型继承自 TFPreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

此模型还是tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档，了解与一般用法和行为相关的所有事项。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是，当将输入传递给模型和层时，Keras 方法更喜欢这种格式。由于有了这种支持，当使用model.fit()等方法时，应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签！但是，如果您想在 Keras 方法之外使用第二种格式，比如在使用 KerasFunctional API 创建自己的层或模型时，有三种可能性可以用来收集第一个位置参数中的所有输入张量：

只有input_ids的单个张量，没有其他内容：model(input_ids)
一个长度可变的列表，其中包含一个或多个输入张量，按照文档字符串中给定的顺序：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个包含与文档字符串中给定的输入名称相关联的一个或多个输入张量的字典：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您无需担心这些内容，因为您可以像对待其他 Python 函数一样传递输入！

`call`

<来源>

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None labels: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast or tuple(tf.Tensor)

参数

input_ids (Numpy array 或 tf.Tensor of shape (batch_size, input_ids_length)) — input_ids_length = sequence_length，如果past为None，则为past[0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列令牌的索引。

如果使用了past，则只有那些尚未计算其过去的输入 ID 应作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values (List[tf.Tensor] of length config.n_layers) — 包含由模型计算的预计算隐藏状态（注意力块中的键和值）（请参见下面的past输出）。可用于加速顺序解码。已经计算过其过去的令牌 ID 不应作为输入 ID 传递给此模型。
attention_mask (tf.Tensor 或 Numpy array of shape (batch_size, sequence_length), optional) — 用于避免在填充令牌索引上执行注意力的掩码。掩码值选定在[0, 1]之间：
- 1 表示未被屏蔽的令牌，
- 0 表示被屏蔽的令牌。
什么是注意力掩码？
token_type_ids (tf.Tensor 或 Numpy array of shape (batch_size, sequence_length), optional) — 段标记索引，指示输入的第一部分和第二部分。索引选定在[0, 1]之间：
- 0 对应于句子 A令牌，
- 1 对应于句子 B令牌。
什么是令牌类型 ID？
position_ids (tf.Tensor 或 Numpy array of shape (batch_size, sequence_length), optional) — 每个输入序列令牌在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask (Numpy array 或 tf.Tensor of shape (num_heads,) 或 (num_layers, num_heads), optional) — 用于使自注意力模块中的选定头部失效的掩码。掩码值选定在[0, 1]之间：
- 1 表示头部未被屏蔽，
- 0 表示头部被屏蔽。
inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量中的attentions。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。此参数可以在急切模式下使用，在图模式下该值将始终设置为 True。
training (bool, optional, 默认为 False) — 是否在训练模式下使用模型（一些模块如 dropout 模块在训练和评估之间有不同的行为）。
labels (np.ndarray 或 tf.Tensor，形状为 (batch_size,), optional) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失），如果 config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast 或一个 tf.Tensor 元组（如果传递 return_dict=False 或 config.return_dict=False）包含各种元素，取决于配置（GPTJConfig）和输入。

loss (形状为 (batch_size, )的tf.Tensor, *optional*, 当提供 labels时返回) — 分类（如果config.num_labels==1` 则为回归）损失。
logits (形状为 (batch_size, config.num_labels)的tf.Tensor) — 分类（如果 config.num_labels==1` 则为回归）得分（SoftMax 之前）。
past_key_values (List[tf.Tensor], optional, 当传递 use_cache=True 或 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tf.Tensor 列表，每个张量的形状为 (2, batch_size, num_heads, sequence_length, embed_size_per_head)。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states (tuple(tf.Tensor), optional, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 tf.Tensor 元组（一个用于嵌入的输出，一个用于每一层的输出）。

模型在每一层输出的隐藏状态以及初始嵌入输出。
attentions (tuple(tf.Tensor), optional, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 tf.Tensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFGPTJForSequenceClassification 的前向方法，覆盖了 __call__ 特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用 Module 实例而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, TFGPTJForSequenceClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")
>>> model = TFGPTJForSequenceClassification.from_pretrained("EleutherAI/gpt-j-6B")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")

>>> logits = model(**inputs).logits

>>> predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = TFGPTJForSequenceClassification.from_pretrained("EleutherAI/gpt-j-6B", num_labels=num_labels)

>>> labels = tf.constant(1)
>>> loss = model(**inputs, labels=labels).loss

TFGPTJForQuestionAnswering

`class transformers.TFGPTJForQuestionAnswering`

< source >

( config *inputs **kwargs )

参数

config（GPTJConfig）- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

GPT-J 模型变压器在顶部具有用于提取式问答任务（例如 SQuAD）的跨度分类头（在隐藏状态输出顶部的线性层，用于计算跨度起始对数和跨度结束对数）。

此模型继承自 TFPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型还是一个tf.keras.Model子类。将其用作常规 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于有此支持，当使用model.fit()等方法时，应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签！但是，如果您想在 Keras 方法之外使用第二种格式，例如在使用 KerasFunctional API 创建自己的层或模型时，有三种可能性可用于收集第一个位置参数中的所有输入张量：

仅具有input_ids的单个张量，没有其他内容：model(input_ids)
一个长度可变的列表，其中包含一个或多个按照文档字符串中给定顺序的输入张量：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给定输入名称相关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您无需担心这些问题，因为您可以像对待任何其他 Python 函数一样传递输入！

`call`

<来源>

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None start_positions: np.ndarray | tf.Tensor | None = None end_positions: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, input_ids_length)的Numpy数组或tf.Tensor）- 如果past为None，则input_ids_length=sequence_length，否则input_ids_length=past[0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用past，则只应传递尚未计算其过去的输入 ID 作为input_ids。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values（长度为config.n_layers的List[tf.Tensor]）- 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如下面的past输出所示。可用于加速顺序解码。将过去给定给该模型的标记 ID 不应作为输入 ID 传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor或Numpy数组，可选）- 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中：
- 1 表示未被掩盖的标记，
- 0 表示被掩盖的标记。
什么是注意力掩码？
token_type_ids（形状为(batch_size, sequence_length)的tf.Tensor或Numpy数组，可选）- 指示输入的第一部分和第二部分的段标记索引。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（tf.Tensor或形状为(batch_size, sequence_length)的Numpy数组，可选）- 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的Numpy数组或tf.Tensor，可选）- 用于使自注意力模块中的选定头部失效的掩码。掩码值选择在[0, 1]之间：
- 1 表示头部未被掩盖，
- 0 表示头部被掩盖。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor，可选）- 可选地，您可以选择直接传递嵌入表示而不是传递input_ids。如果您希望更多地控制如何将input_ids索引转换为关联向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
output_attentions（bool，可选）- 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
output_hidden_states（bool，可选）- 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
return_dict（bool，可选）- 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用，在图模式下该值将始终设置为True。
training（bool，可选，默认为False）- 是否在训练模式下使用模型（某些模块如 dropout 模块在训练和评估之间具有不同的行为）。
start_positions（形状为(batch_size,)的np.ndarray或tf.Tensor，可选）- 用于计算标记分类损失的标记跨度开始位置（索引）的标签。位置被夹紧到序列的长度（sequence_length）。超出序列范围的位置不会用于计算损失。
end_positions（形状为(batch_size,)的np.ndarray或tf.Tensor，可选）- 用于计算标记跨度结束位置（索引）的标签的位置。位置被夹紧到序列的长度（sequence_length）。超出序列范围的位置不会用于计算损失。

transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或一个 tf.Tensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时）包含根据配置（GPTJConfig）和输入的不同元素。

loss (tf.Tensor of shape (batch_size, ), 可选, 当提供 start_positions 和 end_positions 时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits (tf.Tensor of shape (batch_size, sequence_length)) — Span-start scores (before SoftMax).
end_logits (tf.Tensor of shape (batch_size, sequence_length)) — Span-end scores (before SoftMax).
hidden_states (tuple(tf.Tensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 tf.Tensor 元组（一个用于嵌入的输出 + 一个用于每一层的输出）。

模型在每一层的输出处的隐藏状态以及初始嵌入输出。
attentions (tuple(tf.Tensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 tf.Tensor 元组（每层一个）。

在注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFGPTJForQuestionAnswering 的前向方法，覆盖了 __call__ 特殊方法。

虽然前向传递的方法需要在此函数内定义，但应该在之后调用 Module 实例，而不是这个，因为前者负责运行前处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, TFGPTJForQuestionAnswering
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")
>>> model = TFGPTJForQuestionAnswering.from_pretrained("EleutherAI/gpt-j-6B")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="tf")
>>> outputs = model(**inputs)

>>> answer_start_index = int(tf.math.argmax(outputs.start_logits, axis=-1)[0])
>>> answer_end_index = int(tf.math.argmax(outputs.end_logits, axis=-1)[0])

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]

>>> # target is "nice puppet"
>>> target_start_index = tf.constant([14])
>>> target_end_index = tf.constant([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = tf.math.reduce_mean(outputs.loss)

JAXHide JAX content

FlaxGPTJModel

`class transformers.FlaxGPTJModel`

< source >

( config: GPTJConfig input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

参数

config（GPTJConfig） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained() 方法以加载模型权重。
dtype (jax.numpy.dtype, 可选, 默认为 jax.numpy.float32) — 计算的数据类型。可以是 jax.numpy.float32，jax.numpy.float16（在 GPU 上），以及 jax.numpy.bfloat16（在 TPU 上）。

这可以用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定了 dtype，则所有计算将使用给定的 dtype 执行。

请注意，这仅指定了计算的数据类型，不影响模型参数的数据类型。

如果要更改模型参数的数据类型，请参阅 to_fp16() 和 to_bf16()。

裸的 GPTJ 模型变压器输出原始隐藏状态，没有特定的头部。

此模型继承自 FlaxPreTrainedModel。查看超类文档以了解库实现的通用方法，例如下载或保存模型，调整输入嵌入大小，修剪头等。

该模型还是一个 Flax 亚麻flax.nn.Module子类。将其用作常规的 Flax 模块，并参考 Flax 文档以获取有关一般用法和行为的所有相关信息。

最后，该模型支持内在的 JAX 特性，例如：

`call`

< source >

( input_ids attention_mask = None position_ids = None params: dict = None past_key_values: dict = None dropout_rng: PRNGKey = None train: bool = False output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_flax_outputs.FlaxMaskedLMOutput or tuple(torch.FloatTensor)

参数

input_ids (numpy.ndarray，形状为(batch_size, input_ids_length)) — input_ids_length = sequence_length。输入序列标记在词汇表中的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (numpy.ndarray，形状为(batch_size, sequence_length)，optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间：
- 1 代表未被掩盖的标记，
- 0 代表被掩盖的标记。
什么是注意力掩码？
position_ids (numpy.ndarray，形状为(batch_size, sequence_length)，optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
past_key_values (Dict[str, np.ndarray]，optional，由init_cache返回或传递先前的past_key_values时返回) — 预先计算的隐藏状态字典（注意力块中的键和值），可用于快速自回归解码。预先计算的键和值隐藏状态的形状为[batch_size, max_length]。
output_attentions (bool，optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states (bool，optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。

transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False时）包含根据配置（GPTJConfig）和输入的各种元素。

logits (jnp.ndarray，形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states (tuple(jnp.ndarray)，optional，当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

模型在每一层输出的隐藏状态以及初始嵌入输出。
attentions (tuple(jnp.ndarray), 可选的, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 jnp.ndarray 元组（每层一个）。

自注意力头中用于计算加权平均值的注意力权重在经过注意力 softmax 后。

FlaxGPTJPreTrainedModel 的前向方法，覆盖了 __call__ 特殊方法。

尽管前向传递的步骤需要在此函数内定义，但应该在此之后调用 Module 实例，而不是在此处调用，因为前者会负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, FlaxGPTJModel

>>> tokenizer = AutoTokenizer.from_pretrained("gptj")
>>> model = FlaxGPTJModel.from_pretrained("gptj")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="jax")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

FlaxGPTJForCausalLM

`class transformers.FlaxGPTJForCausalLM`

源代码

( config: GPTJConfig input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

参数

config（GPTJConfig） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。
dtype (jax.numpy.dtype, 可选的, 默认为 jax.numpy.float32) — 计算的数据类型。可以是 jax.numpy.float32、jax.numpy.float16（在 GPU 上）和 jax.numpy.bfloat16（在 TPU 上）之一。

这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定了，所有计算将使用给定的 dtype 执行。

请注意，这仅指定了计算的数据类型，不影响模型参数的数据类型。

如果您希望更改模型参数的数据类型，请参阅 to_fp16()和 to_bf16()。

带有语言建模头的 GPTJ 模型变压器。

此模型继承自 FlaxPreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

此模型也是 Flax Linen flax.nn.Module 子类。将其用作常规的 Flax Module，并参考 Flax 文档以获取与一般用法和行为相关的所有信息。

最后，此模型支持内置的 JAX 功能，例如：

`call`

源代码

( input_ids attention_mask = None position_ids = None params: dict = None past_key_values: dict = None dropout_rng: PRNGKey = None train: bool = False output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_flax_outputs.FlaxMaskedLMOutput or tuple(torch.FloatTensor)

参数

input_ids (numpy.ndarray，形状为 (batch_size, input_ids_length)） — input_ids_length = sequence_length。词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参见 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的numpy.ndarray，可选）— 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间：
- 1 表示未被“掩盖”的标记，
- 0 表示被“掩盖”的标记。
什么是注意力掩码？
position_ids（形状为(batch_size, sequence_length)的numpy.ndarray，可选）— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
past_key_values（Dict[str, np.ndarray]，可选，由init_cache返回或传递先前的past_key_values时返回）— 预先计算的隐藏状态字典（在注意力块中的键和值）可用于快速自回归解码。预先计算的键和值隐藏状态的形状为[batch_size, max_length]。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False）包括根据配置（GPTJConfig）和输入的不同元素。

logits（形状为(batch_size, sequence_length, config.vocab_size)的jnp.ndarray）— 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states（tuple(jnp.ndarray)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

每层模型的隐藏状态加上初始嵌入输出。
attentions（tuple(jnp.ndarray)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组（每层一个）。

在自注意力头中用于计算加权平均值的注意力 softmax 之后的注意力权重。

FlaxGPTJPreTrainedModel的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者会默默忽略它们。

示例：

>>> from transformers import AutoTokenizer, FlaxGPTJForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("gptj")
>>> model = FlaxGPTJForCausalLM.from_pretrained("gptj")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="np")
>>> outputs = model(**inputs)

>>> # retrieve logts for next token
>>> next_token_logits = outputs.logits[:, -1]

OpenAI GPT2

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/gpt2

概述

OpenAI GPT-2 模型是由 Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever 在 OpenAI 提出的，它是一个因果（单向）变压器，使用语言建模在一个大约 40GB 的文本数据语料库上进行预训练。

论文的摘要如下：

GPT-2 是一个基于大型变压器的语言模型，具有 15 亿个参数，在一个包含 800 万个网页的数据集[1]上进行训练。GPT-2 的训练目标很简单：预测给定一些文本中所有先前单词的下一个单词。数据集的多样性使得这个简单目标包含了许多跨不同领域的任务的自然发生演示。GPT-2 是 GPT 的直接扩展，参数超过 10 倍，训练数据量超过 10 倍。

Write With Transformer 是由 Hugging Face 创建和托管的一个网页应用程序，展示了几个模型的生成能力。GPT-2 是其中之一，有五种不同的大小可用：small、medium、large、xl 和 small checkpoint 的蒸馏版本：distilgpt-2。

这个模型是由 thomwolf 贡献的。原始代码可以在这里找到。

使用提示

GPT-2 是一个带有绝对位置嵌入的模型，因此通常建议在右侧而不是左侧填充输入。
GPT-2 是通过因果语言建模（CLM）目标进行训练的，因此在预测序列中的下一个标记时非常强大。利用这个特性使 GPT-2 能够生成句法连贯的文本，正如在 run_generation.py 示例脚本中所观察到的那样。
该模型可以接受 past_key_values（对于 PyTorch）或 past（对于 TF）作为输入，这是先前计算的键/值注意力对。使用这个（past_key_values 或 past）值可以防止模型在文本生成的上下文中重新计算预先计算的值。对于 PyTorch，请参阅 GPT2Model.forward() 方法的 past_key_values 参数，或者对于 TF，请参阅 TFGPT2Model.call() 方法的 past 参数，以获取有关其用法的更多信息。
启用 scale_attn_by_inverse_layer_idx 和 reorder_and_upcast_attn 标志将应用来自 Mistral 的训练稳定性改进（仅适用于 PyTorch）。

资源

一个官方 Hugging Face 和社区（由 🌎 表示）资源列表，可帮助您开始使用 GPT2。如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审查！资源应该理想地展示一些新东西，而不是重复现有资源。

文本生成

一篇关于如何使用 Hugging Face 对非英语 GPT-2 模型进行微调的博客。
一篇关于如何生成文本：使用不同的解码方法进行语言生成与 Transformers 的博客，使用 GPT-2。
一篇关于从头开始训练 CodeParrot 🦜 的博客，一个大型的 GPT-2 模型。
一篇关于使用 TensorFlow 和 XLA 加速文本生成的博客，使用 GPT-2。
一篇关于如何使用 Megatron-LM 训练语言模型的博客，使用 GPT-2 模型。
一本关于如何微调 GPT2 以生成您最喜爱的艺术家风格歌词的笔记。🌎
一本关于如何微调 GPT2 以生成您最喜爱的 Twitter 用户风格的推文的笔记。🌎
🤗 Hugging Face 课程的因果语言建模章节。
GPT2LMHeadModel 由这个因果语言建模示例脚本、文本生成示例脚本和笔记本支持。
TFGPT2LMHeadModel 由这个因果语言建模示例脚本和笔记本支持。
FlaxGPT2LMHeadModel 由这个因果语言建模示例脚本和笔记本支持。
文本分类任务指南
标记分类任务指南
因果语言建模任务指南

GPT2Config

`class transformers.GPT2Config`

<来源>

( vocab_size = 50257 n_positions = 1024 n_embd = 768 n_layer = 12 n_head = 12 n_inner = None activation_function = 'gelu_new' resid_pdrop = 0.1 embd_pdrop = 0.1 attn_pdrop = 0.1 layer_norm_epsilon = 1e-05 initializer_range = 0.02 summary_type = 'cls_index' summary_use_proj = True summary_activation = None summary_proj_to_labels = True summary_first_dropout = 0.1 scale_attn_weights = True use_cache = True bos_token_id = 50256 eos_token_id = 50256 scale_attn_by_inverse_layer_idx = False reorder_and_upcast_attn = False **kwargs )

参数

vocab_size (int, 可选，默认为 50257) — GPT-2 模型的词汇量。定义了在调用 GPT2Model 或 TFGPT2Model 时可以表示的不同标记数量。
n_positions (int, 可选，默认为 1024) — 该模型可能会使用的最大序列长度。通常将其设置为较大的值以防万一（例如 512、1024 或 2048）。
n_embd (int, 可选，默认为 768) — 嵌入和隐藏状态的维度。
n_layer (int, 可选，默认为 12) — Transformer 编码器中的隐藏层数。
n_head (int, 可选，默认为 12) — Transformer 编码器中每个注意力层的注意力头数。
n_inner (int, 可选) — 内部前馈层的维度。None将其设置为 4 倍的 n_embd。
activation_function (str, 可选，默认为"gelu_new") — 激活函数，可在列表["relu", "silu", "gelu", "tanh", "gelu_new"]中选择。
resid_pdrop (float, 可选，默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的丢失概率。
embd_pdrop (float, 可选，默认为 0.1) — 嵌入的丢失比率。
attn_pdrop (float, optional, defaults to 0.1) — 注意力的 dropout 比率。
layer_norm_epsilon (float, optional, defaults to 1e-05) — 用于层归一化层的 epsilon 值。
initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。
summary_type (string, optional, defaults to "cls_index") — 在进行序列摘要时使用的参数，在模型 GPT2DoubleHeadsModel 和 TFGPT2DoubleHeadsModel 中使用。

必须是以下选项之一：
- "last": 取最后一个 token 的隐藏状态（类似 XLNet）。
- "first": 取第一个 token 的隐藏状态（类似 BERT）。
- "mean": 取所有 token 隐藏状态的平均值。
- "cls_index": 提供一个分类 token 位置的张量（类似 GPT/GPT-2）。
- "attn": 目前未实现，使用多头注意力。
summary_use_proj (bool, optional, defaults to True) — 在进行序列摘要时使用的参数，在模型 GPT2DoubleHeadsModel 和 TFGPT2DoubleHeadsModel 中使用。

是否在向量提取后添加投影。
summary_activation (str, optional) — 在进行序列摘要时使用的参数。在 GPT2DoubleHeadsModel 中用于多选头。

将 "tanh" 传递给输出的 tanh 激活，任何其他值将导致无激活。
summary_proj_to_labels (bool, optional, defaults to True) — 在进行序列摘要时使用的参数，在模型 GPT2DoubleHeadsModel 和 TFGPT2DoubleHeadsModel 中使用。

投影输出应具有 config.num_labels 或 config.hidden_size 类。
summary_first_dropout (float, optional, defaults to 0.1) — 在进行序列摘要时使用的参数，在模型 GPT2DoubleHeadsModel 和 TFGPT2DoubleHeadsModel 中使用。

在投影和激活之后使用的 dropout 比率。
scale_attn_weights (bool, optional, defaults to True) — 通过除以 sqrt(hidden_size) 缩放注意力权重。
use_cache (bool, optional, defaults to True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。
bos_token_id (int, optional, defaults to 50256) — 词汇表中句子开头标记的 id。
eos_token_id (int, optional, defaults to 50256) — 词汇表中句子结束标记的 id。
scale_attn_by_inverse_layer_idx (bool, optional, defaults to False) — 是否额外通过 1 / layer_idx + 1 缩放注意力权重。
reorder_and_upcast_attn (bool, optional, defaults to False) — 是否在计算注意力（点积）之前缩放键（K），并在使用混合精度训练时将注意力点积/softmax 上转换为 float()。

这是用于存储 GPT2Model 或 TFGPT2Model 的配置类。它用于根据指定的参数实例化一个 GPT-2 模型，定义模型架构。使用默认值实例化配置将产生类似于 GPT-2 gpt2架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例：

>>> from transformers import GPT2Config, GPT2Model

>>> # Initializing a GPT2 configuration
>>> configuration = GPT2Config()

>>> # Initializing a model (with random weights) from the configuration
>>> model = GPT2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

GPT2Tokenizer

`class transformers.GPT2Tokenizer`

<来源>

( vocab_file merges_file errors = 'replace' unk_token = '<|endoftext|>' bos_token = '<|endoftext|>' eos_token = '<|endoftext|>' pad_token = None add_prefix_space = False add_bos_token = False **kwargs )

参数

vocab_file (str) — 词汇文件的路径。
merges_file (str) — 合并文件的路径。
errors (str, 可选, 默认为"replace") — 解码字节为 UTF-8 时要遵循的范例。查看bytes.decode获取更多信息。
unk_token（str，optional，默认为"<|endoftext|>"）--未知令牌。词汇表中没有的令牌无法转换为 ID，而是设置为该令牌。
bos_token（str，optional，默认为"<|endoftext|>"）--序列标记的开头。
eos_token（str，optional，默认为"<|endoftext|>"）--序列结束标记。
pad_token（str，optional）--用于填充的令牌，例如，当批处理不同长度的序列时。
add_prefix_space (bool, 可选, 默认为False) — 是否在输入中添加一个初始空格。这允许将开头的单词视为任何其他单词。（GPT2 分词器通过前导空格检测单词的开头）。
add_bos_token (bool, 可选, 默认为False) — 是否添加一个初始句子开头的标记到输入中。这允许将开头的单词视为任何其他单词。

构建一个 GPT-2 分词器。基于字节级字节对编码。

这个分词器经过训练，将空格视为标记的一部分（有点像 sentencepiece），因此一个单词

在句子开头（没有空格）或不在句子开头时，可能会以不同方式编码：

>>> from transformers import GPT2Tokenizer

>>> tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
>>> tokenizer("Hello world")["input_ids"]
[15496, 995]

>>> tokenizer(" Hello world")["input_ids"]
[18435, 995]

您可以通过在实例化此分词器时或在对某些文本调用它时传递add_prefix_space=True来避免这种行为，但由于模型不是以这种方式进行预训练的，这可能会导致性能下降。

当与is_split_into_words=True一起使用时，这个分词器将在每个单词之前添加一个空格（甚至是第一个单词）。

这个分词器继承自 PreTrainedTokenizer，其中包含大部分主要方法。用户应参考这个超类以获取有关这些方法的更多信息。

`save_vocabulary`

<来源>

( save_directory: str filename_prefix: Optional = None )

GPT2TokenizerFast

`class transformers.GPT2TokenizerFast`

<来源>

( vocab_file = None merges_file = None tokenizer_file = None unk_token = '<|endoftext|>' bos_token = '<|endoftext|>' eos_token = '<|endoftext|>' add_prefix_space = False **kwargs )

参数

vocab_file (str, 可选) — 词汇文件的路径。
merges_file (str, 可选) — 合并文件的路径。
tokenizer_file (str, 可选) — 路径到tokenizers文件（通常具有.json 扩展名），其中包含加载分词器所需的一切。
unk_token（str，optional，默认为"<|endoftext|>"）--未知令牌。词汇表中没有的令牌无法转换为 ID，而是设置为该令牌。
bos_token（str，optional，默认为"<|endoftext|>"）--序列标记的开头。
eos_token（str，optional，默认为"<|endoftext|>"）--序列结束标记。
add_prefix_space (bool, 可选, 默认为False) — 是否在输入中添加一个初始空格。这允许将开头的单词视为任何其他单词。（GPT2 分词器通过前导空格检测单词的开头）。

构建一个“快速”GPT-2 分词器（由 HuggingFace 的tokenizers库支持）。基于字节级字节对编码。

这个分词器经过训练，将空格视为标记的一部分（有点像 sentencepiece），因此一个单词

在句子开头（没有空格）或不在句子开头时，可能会以不同方式编码：

>>> from transformers import GPT2TokenizerFast

>>> tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")
>>> tokenizer("Hello world")["input_ids"]
[15496, 995]

>>> tokenizer(" Hello world")["input_ids"]
[18435, 995]

您可以通过在实例化这个分词器时传递add_prefix_space=True来避免这种行为，但由于模型不是以这种方式进行预训练的，可能会导致性能下降。

当使用is_split_into_words=True时，需要使用add_prefix_space=True来实例化这个分词器。

这个分词器继承自 PreTrainedTokenizerFast，其中包含大部分主要方法。用户应参考这个超类以获取有关这些方法的更多信息。

GPT2 特定输出

`class transformers.models.gpt2.modeling_gpt2.GPT2DoubleHeadsModelOutput`

<来源>

( loss: Optional = None mc_loss: Optional = None logits: FloatTensor = None mc_logits: FloatTensor = None past_key_values: Optional = None hidden_states: Optional = None attentions: Optional = None )

参数

loss（形状为(1,)的torch.FloatTensor，可选，当提供labels时返回）— 语言建模损失。
mc_loss（形状为(1,)的torch.FloatTensor，可选，当提供mc_labels时返回）— 多项选择分类损失。
logits（形状为(batch_size, num_choices, sequence_length, config.vocab_size)的torch.FloatTensor）— 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
mc_logits（形状为(batch_size, num_choices)的torch.FloatTensor）— 多项选择分类头的预测分数（SoftMax 之前每个选择的分数）。
past_key_values（Tuple[Tuple[torch.Tensor]]，可选，当传递use_cache=True或config.use_cache=True时返回）— 长度为config.n_layers的元组，包含形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量元组。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

GPT2 注意力权重在注意力 SoftMax 之后，用于计算自注意力头中的加权平均值。

用于预测两个句子是否连续的模型输出的基类。

`class transformers.models.gpt2.modeling_tf_gpt2.TFGPT2DoubleHeadsModelOutput`

<来源>

( logits: tf.Tensor = None mc_logits: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

logits（形状为(batch_size, num_choices, sequence_length, config.vocab_size)的tf.Tensor）— 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
mc_logits（形状为(batch_size, num_choices)的tf.Tensor）— 多项选择分类头的预测分数（SoftMax 之前每个选择的分数）。
past_key_values（List[tf.Tensor]，可选，当传递use_cache=True或config.use_cache=True时返回）— 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states (tuple(tf.Tensor), 可选的, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每一层的输出）。

模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), 可选的, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。

注意力权重在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

用于预测两个句子是否连续的模型输出的基类。

Pytorch 隐藏 Pytorch 内容

GPT2Model

`class transformers.GPT2Model`

<来源>

( config )

参数

config (GPT2Config) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

裸 GPT2 模型变压器输出原始隐藏状态，没有特定的头部。

该模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

该模型也是 PyTorch 的torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为(batch_size, input_ids_length)) — input_ids_length = sequence_length，如果past_key_values为None，否则为past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只应将未计算其过去的input_ids作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Tuple[Tuple[torch.Tensor]]，长度为config.n_layers) — 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如下面的past_key_values输出所示。可用于加速顺序解码。已经计算过其过去的input_ids不应作为input_ids传递给此模型。
attention_mask (torch.FloatTensor，形状为(batch_size, sequence_length)，可选的) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间：
- 对于未被masked的标记，值为 1，
- 对于被masked的标记，值为 0。
如果使用了past_key_values，则attention_mask需要包含用于past_key_values的掩码策略。换句话说，attention_mask始终必须具有长度：len(past_key_values) + len(input_ids)。

什么是注意力掩码？
token_type_ids（torch.LongTensor，形状为(batch_size, input_ids_length)，可选）— 段标记索引，指示输入的第一部分和第二部分。索引选定在[0, 1]之间：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（torch.LongTensor，形状为(batch_size, sequence_length)，可选）— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask（torch.FloatTensor，形状为(num_heads,)或(num_layers, num_heads)，可选）— 用于使自注意力模块的选定头部失效的掩码。掩码值选定在[0, 1]之间：
- 1 表示头部未被屏蔽，
- 0 表示头部被屏蔽。
inputs_embeds（torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选）— 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。

如果使用了past_key_values，则可选地只需输入最后的inputs_embeds（参见past_key_values）。
use_cache（bool，可选）— 如果设置为True，则返回past_key_values键值状态，并可用于加速解码（参见past_key_values）。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量中的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量中的hidden_states。
return_dict（bool，可选）— 是否返回一个 ModelOutput 而不是一个普通的元组。

transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或者一个torch.FloatTensor的元组（如果传递了return_dict=False或者config.return_dict=False时）包含不同的元素，取决于配置（GPT2Config）和输入。

last_hidden_state（torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)）— 模型最后一层的隐藏状态的序列。

如果使用了past_key_values，则只输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递了use_cache=True或者config.use_cache=True时返回）— 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量，如果config.is_encoder_decoder=True还有 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。

包含预先计算的隐藏状态（自注意力块中的键和值，以及在交叉注意力块中，如果config.is_encoder_decoder=True，则可选）可用于加速顺序解码（请参见past_key_values输入）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回） — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层的输出，则为一个，每层的输出为一个）。

模型在每一层的输出处的隐藏状态以及可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True和config.add_cross_attention=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。

GPT2Model 的前向方法，覆盖了__call__特殊方法。

示例：

>>> from transformers import AutoTokenizer, GPT2Model
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = GPT2Model.from_pretrained("gpt2")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

GPT2LMHeadModel

`class transformers.GPT2LMHeadModel`

<来源>

( config )

参数

config（GPT2Config） — 模型的配置类，包含所有模型的参数。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

带有语言建模头的 GPT2 模型变压器（线性层，其权重与输入嵌入绑定）。

这个模型继承自 PreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithCrossAttentions or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor） — 如果past_key_values为None，则input_ids_length = sequence_length，否则为past_key_values[0][0].shape[-2]（输入过去关键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用past_key_values，只有那些没有计算过去的input_ids应该作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参见 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values (Tuple[Tuple[torch.Tensor]]，长度为config.n_layers) — 包含由模型计算的预计算隐藏状态（注意力块中的键和值）（请参见下面的past_key_values输出）。可用于加速顺序解码。将其过去给定给此模型的input_ids不应作为input_ids传递，因为它们已经计算过。
attention_mask (torch.FloatTensor，形状为(batch_size, sequence_length)，optional) — 遮蔽填充标记索引上的注意力。选择的遮罩值在[0, 1]中：
- 1 表示未被遮蔽的标记，
- 0 表示被遮蔽的标记。
如果使用了past_key_values，则attention_mask需要包含用于past_key_values的遮罩策略。换句话说，attention_mask的长度始终为：len(past_key_values) + len(input_ids)

什么是注意力遮罩？
token_type_ids (torch.LongTensor，形状为(batch_size, input_ids_length)，optional) — 段标记索引，指示输入的第一部分和第二部分。选择的索引在[0, 1]中：
- 0 对应于句子 A的标记，
- 1 对应于句子 B的标记。
什么是标记类型 ID？
position_ids (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask (torch.FloatTensor，形状为(num_heads,)或(num_layers, num_heads)，optional) — 用于使自注意力模块的选定头部失效的掩码。选择的掩码值在[0, 1]中：
- 1 表示头部未被遮蔽，
- 0 表示头部被遮蔽。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，optional) — 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。

如果使用了past_key_values，则可能只需输入最后的inputs_embeds（参见past_key_values）。
use_cache (bool, optional) — 如果设置为True，则返回past_key_values键值状态，并可用于加速解码（请参见past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量中的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量中的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
labels (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 用于语言建模的标签。请注意，模型内部的标签已经被移位，即您可以设置labels = input_ids。在[-100, 0, ..., config.vocab_size]中选择索引。所有设置为-100的标签都将被忽略（遮蔽），损失仅计算在[0, ..., config.vocab_size]中的标签。

transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或tuple(torch.FloatTensor)

transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False）包含根据配置（GPT2Config）和输入的不同元素。

loss (torch.FloatTensor of shape (1,), optional, returned when labels is provided) — 语言建模损失（用于下一个标记预测）。
logits (torch.FloatTensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states (tuple(torch.FloatTensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出+每层的输出）。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的自注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的交叉注意力权重，用于计算交叉注意力头中的加权平均值。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, returned when use_cache=True is passed or when config.use_cache=True) — 长度为config.n_layers的torch.FloatTensor元组的元组，每个元组包含自注意力和交叉注意力层的缓存键、值状态，如果模型用于编码器-解码器设置，则相关。仅在config.is_decoder = True时相关。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码（见past_key_values输入）。

GPT2LMHeadModel 的前向方法，覆盖了__call__特殊方法。

示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPT2LMHeadModel

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = GPT2LMHeadModel.from_pretrained("gpt2")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

GPT2DoubleHeadsModel

`class transformers.GPT2DoubleHeadsModel`

< source >

( config )

参数

config（GPT2Config） — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

GPT2 模型变压器，具有语言建模和顶部的多选分类头，例如用于 RocStories/SWAG 任务。这两个头是两个线性层。语言建模头的权重与输入嵌入绑定，分类头以指定的分类令牌索引的输入作为输入（在输入序列中）。

此模型继承自 PreTrainedModel。检查超类文档，了解库为其所有模型实现的通用方法（例如下载或保存，调整输入嵌入，修剪头等）。

此模型还是 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None mc_token_ids: Optional = None labels: Optional = None mc_labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None **kwargs ) → export const metadata = 'undefined';transformers.models.gpt2.modeling_gpt2.GPT2DoubleHeadsModelOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor）— 如果past_key_values为None，则input_ids_length=sequence_length，否则past_key_values[0][0].shape[-2]（输入过去关键值状态的序列长度）。词汇表中输入序列令牌的索引。

如果使用了past_key_values，则只应将未计算其过去的input_ids作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values（长度为config.n_layers的Tuple[Tuple[torch.Tensor]]）— 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如下面的past_key_values输出所示。可用于加速顺序解码。已将其过去给予此模型的input_ids不应作为input_ids传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）— 用于避免在填充令牌索引上执行注意力的掩码。掩码值选择在[0, 1]之间：
- 1 表示未被遮罩的令牌，
- 0 表示被遮罩的令牌。
如果使用了past_key_values，则attention_mask需要包含用于past_key_values的遮罩策略。换句话说，attention_mask的长度始终必须为：len(past_key_values) + len(input_ids)

什么是注意力掩码？
token_type_ids（形状为(batch_size, input_ids_length)的torch.LongTensor，可选）— 段令牌索引，用于指示输入的第一部分和第二部分。索引选择在[0, 1]之间：
- 0 对应于句子 A令牌，
- 1 对应于句子 B令牌。
什么是令牌类型 ID？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 每个输入序列令牌在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]之间：
- 1 表示头部未被遮罩，
- 0 表示头部被遮罩。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选择直接传递嵌入表示，而不是传递 input_ids。如果您想要更多控制如何将 input_ids 索引转换为相关向量，这很有用，而不是使用模型的内部嵌入查找矩阵。

如果使用了 past_key_values，可选择只需输入最后的 inputs_embeds（参见 past_key_values）。
use_cache (bool, optional) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（参见 past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。
mc_token_ids (torch.LongTensor of shape (batch_size, num_choices), optional, 默认为输入序列中最后一个标记的索引) — 每个输入序列中分类标记的索引。选择范围为 [0, input_ids.size(-1) - 1]。
labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 语言建模的标签。请注意，模型内部的标签已经移位，即您可以设置 labels = input_ids。索引在 [-100, 0, ..., config.vocab_size - 1] 中选择。所有设置为 -100 的标签都被忽略（掩码），损失仅计算标签在 [0, ..., config.vocab_size - 1] 中的标签。
mc_labels (torch.LongTensor of shape (batch_size), optional) — 用于计算多项选择分类损失的标签。索引应在 [0, ..., num_choices] 范围内，其中 num_choices 是输入张量第二维的大小。（参见上面的 input_ids）

transformers.models.gpt2.modeling_gpt2.GPT2DoubleHeadsModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.models.gpt2.modeling_gpt2.GPT2DoubleHeadsModelOutput 或一个 torch.FloatTensor 元组（如果传入 return_dict=False 或当 config.return_dict=False 时），包含根据配置（GPT2Config）和输入而异的各种元素。

loss (torch.FloatTensor of shape (1,), optional, returned when labels is provided) — 语言建模损失。
mc_loss (torch.FloatTensor of shape (1,), optional, returned when mc_labels is provided) — 多项选择分类损失。
logits (torch.FloatTensor of shape (batch_size, num_choices, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 前每个词汇标记的分数）。
mc_logits (torch.FloatTensor of shape (batch_size, num_choices)) — 多项选择分类头的预测分数（SoftMax 前每个选择的分数）。
past_key_values (Tuple[Tuple[torch.Tensor]], optional, returned when use_cache=True is passed or when config.use_cache=True) — 长度为 config.n_layers 的元组，包含形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量元组。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码（参见 past_key_values 输入）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（一个用于嵌入的输出+一个用于每一层的输出）。

模型在每一层输出的隐藏状态以及初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

在注意力 softmax 之后的 GPT2Attentions 权重，用于计算自注意力头中的加权平均值。

GPT2DoubleHeadsModel 前向方法，覆盖__call__特殊方法。

虽然前向传递的配方需要在此函数内定义，但应该在此之后调用Module实例，而不是在此之后调用，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPT2DoubleHeadsModel

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = GPT2DoubleHeadsModel.from_pretrained("gpt2")

>>> # Add a [CLS] to the vocabulary (we should train it also!)
>>> num_added_tokens = tokenizer.add_special_tokens({"cls_token": "[CLS]"})
>>> # Update the model embeddings with the new vocabulary size
>>> embedding_layer = model.resize_token_embeddings(len(tokenizer))

>>> choices = ["Hello, my dog is cute [CLS]", "Hello, my cat is cute [CLS]"]
>>> encoded_choices = [tokenizer.encode(s) for s in choices]
>>> cls_token_location = [tokens.index(tokenizer.cls_token_id) for tokens in encoded_choices]

>>> input_ids = torch.tensor(encoded_choices).unsqueeze(0)  # Batch size: 1, number of choices: 2
>>> mc_token_ids = torch.tensor([cls_token_location])  # Batch size: 1

>>> outputs = model(input_ids, mc_token_ids=mc_token_ids)
>>> lm_logits = outputs.logits
>>> mc_logits = outputs.mc_logits

GPT2ForQuestionAnswering

`class transformers.GPT2ForQuestionAnswering`

<来源>

( config )

参数

config（GPT2Config）— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

GPT-2 模型变压器，顶部带有用于提取问答任务的跨度分类头，如 SQuAD（在隐藏状态输出顶部的线性层，用于计算span start logits和span end logits）。

此模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

前进

<来源>

( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor）— 如果past_key_values为None，则input_ids_length=sequence_length，否则input_ids_length=past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用past_key_values，则只应传递尚未计算其过去的input_ids。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values（长度为config.n_layers的Tuple[Tuple[torch.Tensor]]）— 包含由模型计算的预计算隐藏状态（注意力块中的键和值）（参见下面的past_key_values输出）。可用于加速顺序解码。将其过去传递给该模型的input_ids不应作为input_ids传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）— 用于避免在填充标记索引上执行注意力。选定的掩码值在[0, 1]中选择：
- 1 表示未被遮罩的标记，
- 0 表示被遮罩的标记。
如果使用了past_key_values，则attention_mask需要包含用于past_key_values的遮罩策略。换句话说，attention_mask始终必须具有长度：len(past_key_values) + len(input_ids)。

什么是注意力掩码？
token_type_ids（形状为(batch_size, input_ids_length)的torch.LongTensor，可选）— 段标记索引，指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部失效的掩码。选定的掩码值在[0, 1]中选择：
- 1 表示头部未被遮罩，
- 0 表示头部被遮罩。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）— 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权，以便将input_ids索引转换为相关向量，而不是模型的内部嵌入查找矩阵。

如果使用了past_key_values，则可选择仅输入最后的inputs_embeds（参见past_key_values）。
use_cache（bool，可选）— 如果设置为True，则返回past_key_values键值状态，并可用于加速解码（参见past_key_values）。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回 ModelOutput 而不是普通元组。
start_positions（形状为(batch_size,)的torch.LongTensor，可选）— 用于计算标记跨度开始位置（索引）的标签。位置被夹紧到序列的长度（sequence_length）。序列外的位置不会被考虑在内以计算损失。
end_positions（形状为(batch_size,)的torch.LongTensor，可选）— 用于计算标记跨度结束位置（索引）的标签。位置被夹紧到序列的长度（sequence_length）。序列外的位置不会被考虑在内以计算损失。

transformers.modeling_outputs.QuestionAnsweringModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False）包含根据配置 (GPT2Config) 和输入不同元素。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits (torch.FloatTensor，形状为 (batch_size, sequence_length)) — 跨度起始分数（SoftMax 之前）。
end_logits (torch.FloatTensor，形状为 (batch_size, sequence_length)) — 跨度结束分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则为嵌入输出和每层输出）。

模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力权重在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

GPT2ForQuestionAnswering 的前向方法，覆盖了 __call__ 特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在之后调用 Module 实例，而不是这个，因为前者会负责运行预处理和后处理步骤，而后者会默默地忽略它们。

这个示例使用一个随机模型，真实模型都非常庞大。为了获得正确的结果，应该使用 gpt2 而不是 gpt2。如果加载检查点时出现内存不足，可以尝试在 from_pretrained 调用中添加 device_map="auto"。

示例：

>>> from transformers import AutoTokenizer, GPT2ForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = GPT2ForQuestionAnswering.from_pretrained("gpt2")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss

GPT2ForSequenceClassification

`class transformers.GPT2ForSequenceClassification`

< source >

( config )

参数

config (GPT2Config) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained() 方法来加载模型权重。

GPT2 模型变压器，顶部带有序列分类头（线性层）。

GPT2ForSequenceClassification 使用最后一个标记来进行分类，就像其他因果模型（例如 GPT-1）一样。

由于它对最后一个标记进行分类，需要知道最后一个标记的位置。如果配置中定义了 pad_token_id，则在每行中找到不是填充标记的最后一个标记。如果未定义 pad_token_id，则在批次的每行中取最后一个值。由于无法猜测填充标记，当传递 inputs_embeds 而不是 input_ids 时，它会执行相同操作（在批次的每行中取最后一个值）。

这个模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

这个模型也是 PyTorch 的torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor）- 如果past_key_values为None，则input_ids_length=sequence_length，否则input_ids_length=past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只有那些尚未计算其过去的input_ids应该作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是 input IDs？
past_key_values（长度为config.n_layers的Tuple[Tuple[torch.Tensor]]）- 包含由模型计算的预先计算的隐藏状态（注意力块中的键和值），可以用于加速顺序解码。已经计算过的input_ids不应该作为input_ids传递给这个模型。
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）- 用于避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]中：
- 1 表示未被masked的标记。
- 0 表示被masked的标记。
如果使用了past_key_values，attention_mask需要包含用于past_key_values的掩码策略。换句话说，attention_mask的长度始终为：len(past_key_values) + len(input_ids)

什么是 attention masks？
token_type_ids（形状为(batch_size, input_ids_length)的torch.LongTensor，可选）- 段标记索引，用于指示输入的第一部分和第二部分。索引选择在[0, 1]中：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是 token type IDs？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。

什么是 position IDs？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）- 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]中：
- 1 表示头部未被masked，
- 0 表示头部被masked。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）- 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。

如果使用了past_key_values，可以选择仅输入最后的inputs_embeds（参见past_key_values）。
use_cache（bool，可选）— 如果设置为True，将返回past_key_values键值状态，可用于加速解码（请参见past_key_values）。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回 ModelOutput 而不是普通元组。
labels（形状为(batch_size,)的torch.LongTensor，可选）— 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1，则计算回归损失（均方损失），如果config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.SequenceClassifierOutputWithPast或tuple(torch.FloatTensor)

loss（形状为(1,)的torch.FloatTensor，可选，在提供labels时返回）— 分类（如果config.num_labels==1则为回归）损失。
logits（形状为(batch_size, config.num_labels)的torch.FloatTensor）— 分类（如果config.num_labels==1则为回归）得分（SoftMax 之前）。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或当config.use_cache=True时返回）— 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量）

包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码（请参见past_key_values输入）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或当config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出加上每层的输出）。

每层模型的输出处的隐藏状态加上可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或当config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

GPT2ForSequenceClassification 的前向方法，覆盖__call__特殊方法。

虽然前向传递的方法需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

单标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPT2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/DialogRPT-updown")
>>> model = GPT2ForSequenceClassification.from_pretrained("microsoft/DialogRPT-updown")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPT2ForSequenceClassification.from_pretrained("microsoft/DialogRPT-updown", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类示例：

>>> import torch
>>> from transformers import AutoTokenizer, GPT2ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/DialogRPT-updown")
>>> model = GPT2ForSequenceClassification.from_pretrained("microsoft/DialogRPT-updown", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = GPT2ForSequenceClassification.from_pretrained(
...     "microsoft/DialogRPT-updown", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

GPT2ForTokenClassification

`class transformers.GPT2ForTokenClassification`

<来源>

( config )

参数

config（GPT2Config）- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

在顶部有一个标记分类头的 GPT2 模型（隐藏状态输出的线性层），例如用于命名实体识别（NER）任务。

此模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

`forward`

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的torch.LongTensor）- 如果past_key_values为None，则input_ids_length = sequence_length，否则为past_key_values[0][0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只有那些没有计算其过去的input_ids应作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
past_key_values（长度为config.n_layers的Tuple[Tuple[torch.Tensor]]）- 包含由模型计算的预计算隐藏状态（注意力块中的键和值，如下面的past_key_values输出所示）。可用于加速顺序解码。已经计算的input_ids不应作为input_ids传递给此模型，因为它们已经被计算。
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）- 用于避免在填充标记索引上执行注意力。选择的掩码值在[0, 1]中：
- 1 用于未被掩码的标记，
- 0 用于被“掩码”处理的标记。
如果使用了past_key_values，则attention_mask需要包含用于past_key_values的掩码策略。换句话说，attention_mask始终必须具有长度：len(past_key_values) + len(input_ids)

什么是注意力掩码？
token_type_ids（形状为(batch_size, input_ids_length)的torch.LongTensor，可选）- 段标记索引，指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）- 输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）- 用于使自注意力模块中的选定头部失效的掩码。选择的掩码值在[0, 1]中：
- 1 表示头部未被掩码，
- 0 表示头部被“掩码”。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，optional) — 可选地，可以直接传递嵌入表示，而不是传递input_ids。如果要更好地控制如何将input_ids索引转换为相关向量，这很有用，而不是使用模型的内部嵌入查找矩阵。

如果使用past_key_values，则可选择仅输入最后的inputs_embeds（参见past_key_values）。
use_cache (bool，optional) — 如果设置为True，则返回past_key_values键值状态，可用于加速解码（参见past_key_values）。
output_attentions (bool，optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict (bool，optional) — 是否返回 ModelOutput 而不是普通元组。
labels (torch.LongTensor，形状为(batch_size, sequence_length)，optional) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1，则计算回归损失（均方损失），如果config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.TokenClassifierOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False时）包含根据配置（GPT2Config）和输入的各种元素。

loss (torch.FloatTensor，形状为(1,)，optional，当提供labels时返回) — 分类损失。
logits (torch.FloatTensor，形状为(batch_size, sequence_length, config.num_labels)） — 分类分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，optional，当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组。

模型在每一层输出的隐藏状态加上可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，optional，当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

GPT2ForTokenClassification 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的方法需要在此函数内定义，但应该在此之后调用Module实例，而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, GPT2ForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("brad1141/gpt2-finetuned-comp2")
>>> model = GPT2ForTokenClassification.from_pretrained("brad1141/gpt2-finetuned-comp2")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
['Lead', 'Lead', 'Lead', 'Position', 'Lead', 'Lead', 'Lead', 'Lead', 'Lead', 'Lead', 'Lead', 'Lead']

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
0.25

TensorFlowHide TensorFlow content

TFGPT2Model

`class transformers.TFGPT2Model`

< source >

( config *inputs **kwargs )

参数

config (GPT2Config) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

GPT2 模型变压器裸输出原始隐藏状态，没有特定的头部。

此模型继承自 TFPreTrainedModel。查看超类文档，了解库为其所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

此模型还是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是，当将输入传递给模型和层时，Keras 方法更喜欢这种格式。由于这种支持，当使用model.fit()等方法时，应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签即可！但是，如果您想在 Keras 方法之外使用第二种格式，例如在使用 Keras Functional API 创建自己的层或模型时，有三种可能性可用于收集第一个位置参数中的所有输入张量：

只有input_ids的单个张量，没有其他内容：model(input_ids)
一个长度不同的列表，其中包含一个或多个按照文档字符串中给定的顺序的输入张量：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您无需担心任何这些，因为您可以像对任何其他 Python 函数一样传递输入！

`call`

<来源>

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None encoder_hidden_states: np.ndarray | tf.Tensor | None = None encoder_attention_mask: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFBaseModelOutputWithPastAndCrossAttentions or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, input_ids_length)的Numpy array或tf.Tensor） — 如果past_key_values为None，则input_ids_length = sequence_length，否则past_key_values[0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只应将未计算其过去的输入 ID 作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values（长度为config.n_layers的List[tf.Tensor]） — 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如下面的past_key_values输出所示。可用于加速顺序解码。已将其过去给定给此模型的标记 id 不应作为输入 id 传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor或Numpy数组，可选）- 用于避免在填充标记索引上执行注意力的掩码。掩码值在[0, 1]中选择：
- 对于未被masked的标记为 1，
- 对于被masked的标记为 0。
如果使用了past_key_values，attention_mask需要包含用于past_key_values的掩码策略。换句话说，attention_mask的长度始终为：len(past_key_values) + len(input_ids)

什么是注意力掩码？
token_type_ids（tf.Tensor或形状为(batch_size, sequence_length)的Numpy数组，可选）- 段标记索引，用于指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的tf.Tensor或Numpy数组，可选）- 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的Numpy数组或tf.Tensor，可选）- 用于使自注意力模块的选定头部失效的掩码。掩码值在[0, 1]中选择：
- 1 表示头部未被masked，
- 0 表示头部被masked。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor，可选）- 可选地，可以直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
output_attentions（bool，可选）- 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。此参数仅在急切模式下使用，在图模式中将使用配置中的值。
output_hidden_states（bool，可选）- 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。此参数仅在急切模式下使用，在图模式中将使用配置中的值。
return_dict（bool，可选）- 是否返回 ModelOutput 而不是普通元组。此参数可以在急切模式下使用，在图模式中该值将始终设置为 True。
training（bool，可选，默认为False）- 是否在训练模式中使用模型（一些模块如 dropout 模块在训练和评估之间有不同的行为）。
encoder_hidden_states（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor，可选）- 编码器最后一层的隐藏状态序列。如果模型配置为解码器，则在交叉注意力中使用。
encoder_attention_mask（形状为(batch_size, sequence_length)的tf.Tensor，可选）- 用于避免在编码器输入的填充标记索引上执行注意力的掩码。如果模型配置为解码器，则在交叉注意力中使用。掩码值在[0, 1]中选择：
- 对于未被masked的标记为 1，
- 对于被masked的标记为 0。
past_key_values（长度为config.n_layers的Tuple[Tuple[tf.Tensor]]）- 包含注意力块的预计算键和值隐藏状态。可用于加速解码。如果使用了past，用户可以选择仅输入最后的decoder_input_ids（那些没有将它们的过去键值状态提供给此模型的）的形状为(batch_size, 1)，而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
use_cache（bool，可选，默认为True）- 如果设置为True，则返回past_key_values键值状态，可用于加速解码（参见past）。在训练期间设置为False，在生成期间设置为True。

transformers.modeling_tf_outputs.TFBaseModelOutputWithPastAndCrossAttentions 或tuple(tf.Tensor)

transformers.modeling_tf_outputs.TFBaseModelOutputWithPastAndCrossAttentions 或一个tf.Tensor元组（如果传递return_dict=False或config.return_dict=False）包含各种元素，取决于配置（GPT2Config）和输入。

last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor）- 模型最后一层的隐藏状态序列。

如果使用past_key_values，则只输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values（List[tf.Tensor]，可选，当传递use_cache=True或config.use_cache=True时返回）- 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states（tuple(tf.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每层的输出）。

模型在每一层的输出的隐藏状态加上初始嵌入输出。
attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。

解码器的交叉注意力层的注意力权重，在注意力 softmax 后使用，用于计算交叉注意力头中的加权平均值。

TFGPT2Model 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, TFGPT2Model
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = TFGPT2Model.from_pretrained("gpt2")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFGPT2LMHeadModel

`class transformers.TFGPT2LMHeadModel`

<来源>

( config *inputs **kwargs )

参数

config（GPT2Config）- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

GPT2 模型变压器，顶部带有语言建模头（线性层，权重与输入嵌入绑定）。

此模型继承自 TFPreTrainedModel。请查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型也是tf.keras.Model的子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是，当将输入传递给模型和层时，Keras 方法更喜欢这种格式。由于有了这种支持，当使用model.fit()等方法时，您应该可以“轻松使用” - 只需像对待model.fit()支持的任何其他格式一样传递输入和标签！但是，如果您想在 Keras 方法之外使用第二种格式，例如在使用 KerasFunctionalAPI 创建自己的层或模型时，有三种可能性可以用来收集所有输入张量放在第一个位置参数中：

只有一个张量，其中仅包含input_ids而没有其他内容：model(input_ids)
一个长度不定的列表，其中包含一个或多个输入张量，按照文档字符串中给定的顺序：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您无需担心任何这些，因为您可以像对待任何其他 Python 函数一样传递输入！

`call`

<来源>

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None encoder_hidden_states: np.ndarray | tf.Tensor | None = None encoder_attention_mask: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFCausalLMOutputWithCrossAttentions or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, input_ids_length)的Numpy 数组或tf.Tensor）- 如果past_key_values为None，则input_ids_length=sequence_length，否则input_ids_length=past_key_values[0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列令牌的索引。

如果使用past_key_values，则只应将未计算其过去的输入 ID 作为input_ids传递。

可以使用 AutoTokenizer 来获取索引。有关详细信息，请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values（长度为config.n_layers的List[tf.Tensor]）- 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如模型计算的past_key_values输出所示。可用于加速顺序解码。已经计算过其过去的令牌 ID 不应作为输入 ID 传递给此模型。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor或Numpy 数组，可选）- 用于避免在填充令牌索引上执行注意力的掩码。在[0, 1]中选择的掩码值：
- 对于未被masked的令牌，为 1，
- 对于被masked的令牌，为 0。
如果使用past_key_values，则attention_mask需要包含用于past_key_values的掩码策略。换句话说，attention_mask始终必须具有长度：len(past_key_values) + len(input_ids)

什么是注意力掩码？
token_type_ids (tf.Tensor 或 Numpy array，形状为(batch_size, sequence_length)，optional) — 段标记索引，指示输入的第一部分和第二部分。索引选定在[0, 1]之间：
- 0 对应于一个句子 A令牌，
- 1 对应于一个句子 B令牌。
什么是令牌类型 ID？
position_ids (tf.Tensor 或 Numpy array，形状为(batch_size, sequence_length)，optional) — 每个输入序列令牌在位置嵌入中的位置索引。选定范围为[0, config.max_position_embeddings - 1]。

什么是位置 ID？
head_mask (Numpy array 或 tf.Tensor，形状为(num_heads,) 或 (num_layers, num_heads)，optional) — 用于使自注意力模块中的选定头部失效的掩码。掩码值选定在[0, 1]之间：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
inputs_embeds (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)，optional) — 可选地，可以直接传递嵌入表示而不是传递input_ids。如果您希望更多地控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量中的attentions。此参数仅在急切模式下可用，在图模式下将使用配置中的值。
output_hidden_states (bool，optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量中的hidden_states。此参数仅在急切模式下可用，在图模式下将使用配置中的值。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用，在图模式下该值将始终设置为 True。
training (bool，optional，默认为False) — 是否在训练模式下使用模型（一些模块如 dropout 模块在训练和评估之间有不同的行为）。
encoder_hidden_states (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)，optional) — 编码器最后一层的隐藏状态序列。如果模型配置为解码器，则在交叉注意力中使用。
encoder_attention_mask (tf.Tensor，形状为(batch_size, sequence_length)，optional) — 用于避免对编码器输入的填充令牌索引执行注意力的掩码。如果模型配置为解码器，则此掩码将用于交叉注意力。掩码值选定在[0, 1]之间：
- 1 用于未被掩码的令牌，
- 0 用于被掩码的令牌。
past_key_values (Tuple[Tuple[tf.Tensor]]，长度为config.n_layers) — 包含注意力块的预计算键和值隐藏状态。可用于加速解码。如果使用了past，用户可以选择仅输入最后一个decoder_input_ids（这些输入没有将它们的过去键值状态提供给此模型）的形状为(batch_size, 1)，而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
use_cache (bool, optional，默认为True) — 如果设置为True，则将返回past_key_values键值状态，并可用于加速解码（参见past）。在训练期间设置为False，在生成期间设置为True。
labels (tf.Tensor，形状为(batch_size, sequence_length)，optional) — 用于计算交叉熵分类损失的标签。索引应在[0, ..., config.vocab_size - 1]之间。

transformers.modeling_tf_outputs.TFCausalLMOutputWithCrossAttentions 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFCausalLMOutputWithCrossAttentions 或一个tf.Tensor元组（如果传递return_dict=False或config.return_dict=False）包含根据配置（GPT2Config）和输入的各种元素。

loss（形状为(n,)的tf.Tensor，可选，当提供labels时返回，其中 n 是非掩码标签的数量）- 语言建模损失（用于下一个标记预测）。
logits（形状为(batch_size, sequence_length, config.vocab_size)的tf.Tensor）- 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。

在注意力 SoftMax 之后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。

解码器交叉注意力层的注意力权重，在注意力 SoftMax 之后，用于计算交叉注意力头中的加权平均值。
past_key_values（List[tf.Tensor]，可选，当传递use_cache=True或config.use_cache=True时返回）- 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。

TFGPT2LMHeadModel 前向方法，覆盖__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会处理运行前和运行后的处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, TFGPT2LMHeadModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = TFGPT2LMHeadModel.from_pretrained("gpt2")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> logits = outputs.logits

TFGPT2DoubleHeadsModel

`class transformers.TFGPT2DoubleHeadsModel`

<来源>

( config *inputs **kwargs )

参数

config（GPT2Config）- 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained()方法加载模型权重。

GPT2 模型变压器，顶部有一个语言建模和一个多选分类头，例如用于 RocStories/SWAG 任务。这两个头是两个线性层。语言建模头的权重与输入嵌入绑定，分类头以指定的分类标记索引的输入序列输入为输入）。

这个模型继承自 TFPreTrainedModel。查看超类文档以了解库实现的通用方法，适用于所有模型（例如下载或保存，调整输入嵌入，修剪头等）。

这个模型也是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档，了解与一般使用和行为相关的所有事项。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），或
将所有输入作为列表、元组或字典的第一个位置参数。

支持第二种格式的原因是，当将输入传递给模型和层时，Keras 方法更喜欢这种格式。由于这种支持，当使用model.fit()等方法时，应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签即可！但是，如果您想在 Keras 方法之外使用第二种格式，例如在使用 KerasFunctional API 创建自己的层或模型时，有三种可能性可以用来收集第一个位置参数中的所有输入张量：

一个仅包含input_ids的单个张量，没有其他内容：model(input_ids)
一个长度不同的列表，其中包含按照文档字符串中给定的顺序的一个或多个输入张量：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您无需担心这些问题，因为您可以像对待任何其他 Python 函数一样传递输入！

`call`

<来源>

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None mc_token_ids: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.models.gpt2.modeling_tf_gpt2.TFGPT2DoubleHeadsModelOutput or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, input_ids_length)的Numpy array或tf.Tensor）- 如果past_key_values为None，则input_ids_length=sequence_length，否则input_ids_length=past_key_values[0].shape[-2]（输入过去键值状态的sequence_length）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只有那些没有计算过其过去的输入 ID 应该作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values（长度为config.n_layers的List[tf.Tensor]）- 包含由模型计算的预计算隐藏状态（注意力块中的键和值），如下面的past_key_values输出所示。可用于加速顺序解码。将其过去给予该模型的令牌 ID 不应作为输入 ID 传递，因为它们已经计算过。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor或Numpy array，可选）- 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间：
- 对于被not masked的标记，为 1。
- 对于被masked的标记，为 0。
如果使用了past_key_values，则attention_mask需要包含用于past_key_values的掩码策略。换句话说，attention_mask始终必须具有长度：len(past_key_values) + len(input_ids)

什么是注意力掩码？
token_type_ids (tf.Tensor或形状为(batch_size, sequence_length)的Numpy数组，可选) — 段标记索引，指示输入的第一部分和第二部分。索引选择在[0, 1]中：
- 0 对应于句子 A标记，
- 1 对应于句子 B标记。
什么是标记类型 ID？
position_ids (tf.Tensor或形状为(batch_size, sequence_length)的Numpy数组，可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask (Numpy数组或形状为(num_heads,)或(num_layers, num_heads)的tf.Tensor，可选) — 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]中：
- 1 表示头部是not masked，
- 0 表示头部是masked。
inputs_embeds (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是模型的内部嵌入查找矩阵，则这很有用。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量中的attentions。此参数仅在急切模式下使用，在图模式中将使用配置中的值。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量中的hidden_states。此参数仅在急切模式下使用，在图模式中将使用配置中的值。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。此参数仅在急切模式下使用，在图模式中该值将始终设置为 True。
training (bool，可选，默认为False) — 是否在训练模式下使用模型（一些模块如 dropout 模块在训练和评估之间有不同的行为）。
mc_token_ids (tf.Tensor或形状为(batch_size, num_choices)的Numpy数组，可选，默认为输入的最后一个标记的索引) — 每个输入序列中分类标记的索引。在范围[0, input_ids.size(-1) - 1]中选择。

返回值

transformers.models.gpt2.modeling_tf_gpt2.TFGPT2DoubleHeadsModelOutput 或tuple(tf.Tensor)

一个 transformers.models.gpt2.modeling_tf_gpt2.TFGPT2DoubleHeadsModelOutput 或一个tf.Tensor元组（如果传递了return_dict=False或当config.return_dict=False时）包含根据配置（GPT2Config）和输入的不同元素。

logits (tf.Tensor，形状为(batch_size, num_choices, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
mc_logits (tf.Tensor，形状为(batch_size, num_choices)) — 多项选择分类头的预测分数（SoftMax 之前每个选择的分数）。
past_key_values (List[tf.Tensor]，可选，当传递use_cache=True或当config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每一层的输出）。

模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。

在自注意力头中使用注意力 softmax 后的注意力权重，用于计算加权平均值。

TFGPT2DoubleHeadsModel 的前向方法，覆盖__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在之后调用Module实例，而不是在此处调用，因为前者负责运行前后处理步骤，而后者会默默忽略它们。

示例：

>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFGPT2DoubleHeadsModel

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = TFGPT2DoubleHeadsModel.from_pretrained("gpt2")

>>> # Add a [CLS] to the vocabulary (we should train it also!)
>>> num_added_tokens = tokenizer.add_special_tokens({"cls_token": "[CLS]"})

>>> embedding_layer = model.resize_token_embeddings(
...     len(tokenizer)
... )  # Update the model embeddings with the new vocabulary size

>>> choices = ["Hello, my dog is cute [CLS]", "Hello, my cat is cute [CLS]"]
>>> encoded_choices = [tokenizer.encode(s) for s in choices]
>>> cls_token_location = [tokens.index(tokenizer.cls_token_id) for tokens in encoded_choices]

>>> input_ids = tf.constant(encoded_choices)[None, :]  # Batch size: 1, number of choices: 2
>>> mc_token_ids = tf.constant([cls_token_location])  # Batch size: 1

>>> outputs = model(input_ids, mc_token_ids=mc_token_ids)
>>> lm_prediction_scores, mc_prediction_scores = outputs[:2]

TFGPT2ForSequenceClassification

`class transformers.TFGPT2ForSequenceClassification`

<来源>

( config *inputs **kwargs )

参数

config（GPT2Config）- 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只加载配置。查看 from_pretrained()方法来加载模型权重。

GPT2 模型变压器，顶部带有序列分类头（线性层）。

TFGPT2ForSequenceClassification 使用最后一个标记进行分类，就像其他因果模型（例如 GPT-1）一样。

由于它对最后一个标记进行分类，因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id，则会找到每行中不是填充标记的最后一个标记。如果未定义pad_token_id，则会简单地取批次中每行的最后一个值。当传递inputs_embeds而不是input_ids时，无法猜测填充标记，因此会执行相同操作（取批次中每行的最后一个值）。

该模型继承自 TFPreTrainedModel。查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

该模型也是tf.keras.Model的子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入：

将所有输入作为关键字参数（类似于 PyTorch 模型），或
将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持，当使用model.fit()等方法时，您应该可以“轻松使用” - 只需以model.fit()支持的任何格式传递您的输入和标签！但是，如果您想在 Keras 方法之外使用第二种格式，比如在使用 KerasFunctional API 创建自己的层或模型时，有三种可能性可以用来收集所有输入张量在第一个位置参数中：

仅包含input_ids的单个张量，没有其他内容：model(input_ids)
一个长度不同的列表，其中包含按照文档字符串中给定的顺序的一个或多个输入张量：model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
一个字典，其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量：model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，您不需要担心这些问题，因为您可以像将输入传递给任何其他 Python 函数一样传递输入！

`call`

<来源>

( input_ids: TFModelInputType | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, input_ids_length)的Numpy array或tf.Tensor） - input_ids_length = 如果past_key_values为None，则为sequence_length，否则为past_key_values[0].shape[-2]（输入过去键值状态的序列长度）。词汇表中输入序列标记的索引。

如果使用了past_key_values，则只有那些尚未计算其过去的输入 ID 应该作为input_ids传递。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

什么是输入 ID？
past_key_values（长度为config.n_layers的List[tf.Tensor]） - 包含由模型计算的预先计算的隐藏状态（注意力块中的键和值），如模型计算的（请参见下面的past_key_values输出）。可用于加速顺序解码。已经计算过其过去的令牌 ID 不应作为输入 ID 传递，因为它们已经被计算过。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor或Numpy array，可选） - 用于避免在填充标记索引上执行注意力的掩码。掩码值在[0, 1]中选择：
- 1 表示未被掩码的标记，
- 0 表示被掩码的标记。
如果使用了past_key_values，则attention_mask需要包含用于past_key_values的掩码策略。换句话说，attention_mask始终必须具有长度：len(past_key_values) + len(input_ids)

什么是注意力掩码？
token_type_ids（形状为(batch_size, sequence_length)的tf.Tensor或Numpy array，可选） - 段标记索引，用于指示输入的第一部分和第二部分。索引在[0, 1]中选择：
- 0 对应于句子 A的标记，
- 1 对应于句子 B的标记。
什么是标记类型 ID？
position_ids（形状为(batch_size, sequence_length)的tf.Tensor或Numpy array，可选） - 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

什么是位置 ID？
head_mask (Numpy 数组 或 tf.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头部失效的掩码。掩码值选定在 [0, 1]：
- 1 表示头部未被“掩盖”。
- 0 表示头部被“掩盖”。
inputs_embeds (tf.Tensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选择直接传递嵌入表示，而不是传递 input_ids。如果您想要更多控制如何将 input_ids 索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。此参数仅在急切模式下使用，在图模式下将使用配置中的值。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用，在图模式下该值将始终设置为 True。
training (bool，可选，默认为 False) — 是否在训练模式下使用模型（某些模块，如 dropout 模块，在训练和评估之间具有不同的行为）。
labels (tf.Tensor，形状为 (batch_size, sequence_length)，可选) — 用于计算交叉熵分类损失的标签。索引应在 [0, ..., config.vocab_size - 1]。

transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast 或一个 tf.Tensor 元组（如果传递 return_dict=False 或 config.return_dict=False 或 config.return_dict=False）包含根据配置（GPT2Config）和输入而异的各种元素。

loss (tf.Tensor，形状为 (batch_size, )，可选，当提供 labels 时返回) — 分类（如果 config.num_labels==1 则为回归）损失。
logits (tf.Tensor，形状为 (batch_size, config.num_labels)） — 分类（如果 config.num_labels==1 则为回归）得分（SoftMax 之前）。
past_key_values (List[tf.Tensor]，可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tf.Tensor 列表，每个张量的形状为 (2, batch_size, num_heads, sequence_length, embed_size_per_head)。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states (tuple(tf.Tensor)，可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 tf.Tensor 元组（一个用于嵌入的输出 + 一个用于每层的输出）。

模型在每个层的输出处的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 tf.Tensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFGPT2ForSequenceClassification 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义，但应该在此之后调用Module实例，而不是在此之后调用，因为前者负责运行预处理和后处理步骤，而后者则默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, TFGPT2ForSequenceClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/DialogRPT-updown")
>>> model = TFGPT2ForSequenceClassification.from_pretrained("microsoft/DialogRPT-updown")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")

>>> logits = model(**inputs).logits

>>> predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = TFGPT2ForSequenceClassification.from_pretrained("microsoft/DialogRPT-updown", num_labels=num_labels)

>>> labels = tf.constant(1)
>>> loss = model(**inputs, labels=labels).loss

TFSequenceClassifierOutputWithPast

`class transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast`

<来源>

( loss: tf.Tensor | None = None logits: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

loss (tf.Tensor，形状为(batch_size, )，可选，当提供labels时返回) — 分类（如果config.num_labels==1则为回归）损失。
logits (tf.Tensor，形状为(batch_size, config.num_labels)) — 分类（如果config.num_labels==1则为回归）得分（SoftMax 之前）。
past_key_values (List[tf.Tensor], 可选，当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states (tuple(tf.Tensor), 可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

模型在每个层的输出状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), 可选，当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。

在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

句子分类模型输出的基类。

TFGPT2Tokenizer

`class transformers.TFGPT2Tokenizer`

<来源>

( vocab: Dict merges: List max_length: int = None pad_token_id: int = None )

参数

vocab (Dict[str, int]) — 字节对编码器的词汇表字典
merges (List[str]) — 字节对编码器的合并列表

这是 GPT2 的图内分词器。它应该类似于其他分词器进行初始化，使用from_pretrained()方法。也可以使用from_tokenizer()方法进行初始化，该方法从现有标准分词器对象导入设置。

与其他 Hugging Face 分词器不同，图内分词器实际上是 Keras 层，设计为在调用模型时运行，而不是在预处理期间运行。因此，它们的选项比标准分词器类稍微有限。当您想要创建一个直接从tf.string输入到输出的端到端模型时，它们最有用。

`from_config`

<来源>

( config )

参数

config (Dict) — 具有get_config中所述键的字典。

从配置创建 TFGPT2Tokenizer

`from_pretrained`

<来源>

( pretrained_model_name_or_path: Union *init_inputs **kwargs )

参数

pretrained_model_name_or_path (Union[str, os.PathLike]) — 预训练模型的路径

从预训练的 GPT2Tokenizer 创建 TFGPT2Tokenizer

示例：

from transformers import TFGPT2Tokenizer

tf_tokenizer = TFGPT2Tokenizer.from_pretrained("gpt2")

`from_tokenizer`

<来源>

( tokenizer: GPT2Tokenizer *args **kwargs )

参数

tokenizer (GPT2Tokenizer) —

从 GPT2Tokenizer 创建 TFGPT2Tokenizer

示例：

from transformers import AutoTokenizer, TFGPT2Tokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")
tf_tokenizer = TFGPT2Tokenizer.from_tokenizer(tokenizer)

JAXHide JAX 内容

FlaxGPT2Model

`class transformers.FlaxGPT2Model`

<来源>

( config: GPT2Config input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

参数

config（GPT2Config）— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。
dtype（jax.numpy.dtype，可选，默认为jax.numpy.float32）— 计算的数据类型。可以是jax.numpy.float32、jax.numpy.float16（在 GPU 上）和jax.numpy.bfloat16（在 TPU 上）之一。

这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定，所有计算将使用给定的dtype执行。

请注意，这仅指定计算的数据类型，不影响模型参数的数据类型。

如果要更改模型参数的数据类型，请参阅 to_fp16()和 to_bf16()。

GPT2 模型变换器裸输出原始隐藏状态，没有特定的头部。

此模型继承自 FlaxPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

此模型还是 Flax Linen flax.nn.Module子类。将其用作常规 Flax 模块，并参考 Flax 文档以了解所有与一般用法和行为相关的事项。

最后，此模型支持内在的 JAX 功能，例如：

`call`

<来源>

( input_ids attention_mask = None position_ids = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None params: dict = None past_key_values: dict = None dropout_rng: PRNGKey = None train: bool = False output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, input_ids_length)的numpy.ndarray）— input_ids_length = sequence_length。词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的numpy.ndarray，可选）— 避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中：
- 1 表示“未屏蔽”的标记，
- 0 表示“屏蔽”的标记。
什么是注意力掩码？
position_ids（形状为(batch_size, sequence_length)的numpy.ndarray，可选）— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
past_key_values (Dict[str, np.ndarray], optional, returned by init_cache or when passing previous past_key_values) — 预先计算的隐藏状态的字典（注意力块中的键和值），可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量中的 attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量中的 hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False 时）包含各种元素，具体取决于配置（GPT2Config）和输入。

last_hidden_state (jnp.ndarray，形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层的输出隐藏状态序列。

如果使用 past_key_values，则仅输出形状为 (batch_size, 1, hidden_size) 序列的最后一个隐藏状态。
past_key_values (tuple(tuple(jnp.ndarray)), optional, returned when use_cache=True is passed or when config.use_cache=True) — 长度为 config.n_layers 的 tuple(jnp.ndarray) 元组，每个元组有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量，如果 config.is_encoder_decoder=True 还有 2 个额外的形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的张量。

包含预先计算的隐藏状态（自注意力块中的键和值，以及如果在交叉注意力块中 config.is_encoder_decoder=True 时）可用于加速顺序解码。
hidden_states (tuple(jnp.ndarray), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of jnp.ndarray (one for the output of the embeddings + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size)。

每层模型的输出隐藏状态以及初始嵌入输出。
attentions (tuple(jnp.ndarray), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of jnp.ndarray (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(jnp.ndarray), optional, returned when output_attentions=True and config.add_cross_attention=True is passed or when config.output_attentions=True) — Tuple of jnp.ndarray (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length)。

解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。

FlaxGPT2PreTrainedModel 的前向方法，覆盖了 __call__ 特殊方法。

示例：

>>> from transformers import AutoTokenizer, FlaxGPT2Model

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = FlaxGPT2Model.from_pretrained("gpt2")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="jax")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

FlaxGPT2LMHeadModel

`class transformers.FlaxGPT2LMHeadModel`

<来源>

( config: GPT2Config input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

参数

config（GPT2Config） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。
dtype (jax.numpy.dtype, optional, defaults to jax.numpy.float32) — 计算的数据类型。可以是jax.numpy.float32，jax.numpy.float16（在 GPU 上），以及jax.numpy.bfloat16（在 TPU 上）。

这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定，所有计算将使用给定的dtype执行。

请注意，这仅指定了计算的数据类型，不会影响模型参数的数据类型。

如果您希望更改模型参数的数据类型，请参阅 to_fp16()和 to_bf16()。

带有语言建模头的 GPT2 模型变换器（线性层，其权重与输入嵌入绑定）。

此模型继承自 FlaxPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型还是 Flax Linen flax.nn.Module子类。将其用作常规 Flax 模块，并参考 Flax 文档以获取有关一般用法和行为的所有相关信息。

最后，此模型支持 JAX 的固有功能，例如：

`call`

<来源>

( input_ids attention_mask = None position_ids = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None params: dict = None past_key_values: dict = None dropout_rng: PRNGKey = None train: bool = False output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions or tuple(torch.FloatTensor)

参数

input_ids (numpy.ndarray of shape (batch_size, input_ids_length)) — input_ids_length = sequence_length。词汇表中输入序列标记的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

什么是输入 ID？
attention_mask (numpy.ndarray of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间：
- 对于未被掩码的标记，为 1，
- 对于被掩码的标记，为 0。
什么是注意力掩码？
position_ids (numpy.ndarray of shape (batch_size, sequence_length), optional) — 位置嵌入中每个输入序列标记的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
past_key_values (Dict[str, np.ndarray], optional, 由init_cache返回或传递先前的past_key_values时返回） — 预先计算的隐藏状态（注意力块中的键和值）的字典，可用于快速自回归解码。预先计算的键和值隐藏状态的形状为[batch_size, max_length]。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False）包含根据配置（GPT2Config）和输入的各种元素。

logits (jnp.ndarray of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states (tuple(jnp.ndarray), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回） — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组（一个用于嵌入的输出 + 一个用于每个层的输出）。

每个层输出的模型隐藏状态加上初始嵌入输出。
attentions (tuple(jnp.ndarray), optional, 当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组（每个层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(jnp.ndarray), optional, 当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组（每个层一个）。

注意力 softmax 后的交叉注意力权重，用于计算交叉注意力头中的加权平均值。
past_key_values (tuple(tuple(jnp.ndarray)), optional, 当传递use_cache=True或config.use_cache=True时返回） — 长度为config.n_layers的jnp.ndarray元组的元组，每个元组包含自注意力和交叉注意力层的缓存键、值状态。仅在config.is_decoder = True时相关。

包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。

FlaxGPT2PreTrainedModel的前向方法，覆盖__call__特殊方法。

尽管前向传播的配方需要在这个函数内定义，但应该在此之后调用Module实例，而不是这个函数，因为前者负责运行预处理和后处理步骤，而后者则会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, FlaxGPT2LMHeadModel

>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")
>>> model = FlaxGPT2LMHeadModel.from_pretrained("gpt2")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="np")
>>> outputs = model(**inputs)

>>> # retrieve logts for next token
>>> next_token_logits = outputs.logits[:, -1]

posted @ 2024-06-22 14:20 绝不原创的飞龙阅读(146) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-十九-

Transformers 4.37 中文文档（十九）

GPT Neo

概述

使用示例

结合 GPT-Neo 和 Flash Attention 2

预期加速

资源

GPTNeoConfig

class transformers.GPTNeoConfig

GPTNeoModel

class transformers.GPTNeoModel

forward

GPTNeoForCausalLM

class transformers.GPTNeoForCausalLM

forward

GPTNeoForQuestionAnswering

class transformers.GPTNeoForQuestionAnswering

forward

GPTNeoForSequenceClassification

class transformers.GPTNeoForSequenceClassification

forward

GPTNeoForTokenClassification

class transformers.GPTNeoForTokenClassification

forward

FlaxGPTNeoModel

class transformers.FlaxGPTNeoModel

__call__

FlaxGPTNeoForCausalLM

class transformers.FlaxGPTNeoForCausalLM

__call__

GPT-NeoX

概述

使用示例

使用 Flash Attention 2

安装

用法

预期加速

资源

GPTNeoXConfig

class transformers.GPTNeoXConfig

GPTNeoXTokenizerFast

class transformers.GPTNeoXTokenizerFast

GPTNeoXModel

class transformers.GPTNeoXModel

forward

GPTNeoXForCausalLM

class transformers.GPTNeoXForCausalLM

forward

GPTNeoXForQuestionAnswering

class transformers.GPTNeoXForQuestionAnswering

forward

GPTNeoXForSequenceClassification

class transformers.GPTNeoXForSequenceClassification

forward

GPTNeoXForTokenClassification

class transformers.GPTNeoXForTokenClassification

forward

GPT-NeoX-Japanese

概述

使用示例

资源

GPTNeoXJapaneseConfig

class transformers.GPTNeoXJapaneseConfig

GPTNeoXJapaneseTokenizer

class transformers.GPTNeoXJapaneseTokenizer

convert_tokens_to_string

GPTNeoXJapaneseModel

class transformers.GPTNeoXJapaneseModel

forward

GPTNeoXJapaneseForCausalLM

class transformers.GPTNeoXJapaneseForCausalLM

forward

GPT-J

概述

使用提示

使用示例

资源

`class transformers.GPTNeoConfig`

`class transformers.GPTNeoModel`

`forward`

`class transformers.GPTNeoForCausalLM`

`forward`

`class transformers.GPTNeoForQuestionAnswering`

`forward`

`class transformers.GPTNeoForSequenceClassification`

`forward`

`class transformers.GPTNeoForTokenClassification`

`forward`

`class transformers.FlaxGPTNeoModel`

`call`

`class transformers.FlaxGPTNeoForCausalLM`

`call`

`class transformers.GPTNeoXConfig`

`class transformers.GPTNeoXTokenizerFast`

`class transformers.GPTNeoXModel`

`forward`

`class transformers.GPTNeoXForCausalLM`

`forward`

`class transformers.GPTNeoXForQuestionAnswering`

`forward`

`class transformers.GPTNeoXForSequenceClassification`

`forward`

`class transformers.GPTNeoXForTokenClassification`

`forward`

`class transformers.GPTNeoXJapaneseConfig`

`class transformers.GPTNeoXJapaneseTokenizer`

`convert_tokens_to_string`

`class transformers.GPTNeoXJapaneseModel`

`forward`

`class transformers.GPTNeoXJapaneseForCausalLM`

`forward`

`class transformers.GPTJConfig`

`class transformers.GPTJModel`

`forward`

`class transformers.GPTJForCausalLM`

`forward`

`class transformers.GPTJForSequenceClassification`

`forward`

`class transformers.GPTJForQuestionAnswering`

`forward`

`class transformers.TFGPTJModel`

`call`

`class transformers.TFGPTJForCausalLM`

`call`

`class transformers.TFGPTJForSequenceClassification`

`call`

`class transformers.TFGPTJForQuestionAnswering`

`call`

`class transformers.FlaxGPTJModel`

`call`

`class transformers.FlaxGPTJForCausalLM`

`call`

`class transformers.GPT2Config`

`class transformers.GPT2Tokenizer`

`save_vocabulary`

`class transformers.GPT2TokenizerFast`

`class transformers.models.gpt2.modeling_gpt2.GPT2DoubleHeadsModelOutput`

`class transformers.models.gpt2.modeling_tf_gpt2.TFGPT2DoubleHeadsModelOutput`

`class transformers.GPT2Model`

`forward`

`class transformers.GPT2LMHeadModel`

`forward`

`class transformers.GPT2DoubleHeadsModel`

`forward`

`class transformers.GPT2ForQuestionAnswering`

`class transformers.GPT2ForSequenceClassification`

`forward`

`class transformers.GPT2ForTokenClassification`

`forward`

`class transformers.TFGPT2Model`

`call`

`class transformers.TFGPT2LMHeadModel`

`call`