Transformers--4-37-中文文档-十七-

Transformers 4.37 中文文档(十七)

原文:huggingface.co/docs/transformers

ErnieM

原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/ernie_m

概述

ErnieM 模型是由欧阳璇、王硕欢、庞超、孙宇、田浩、吴华、王海峰在ERNIE-M:通过将跨语言语义与单语语料库对齐来增强多语言表示中提出的。

论文摘要如下:

最近的研究表明,预训练的跨语言模型在下游跨语言任务中取得了令人印象深刻的性能。这种改进得益于学习大量的单语和平行语料库。尽管普遍认为平行语料对于提高模型性能至关重要,但现有方法往往受到平行语料规模的限制,特别是对于低资源语言。在本文中,我们提出了 ERNIE-M,一种新的训练方法,鼓励模型将多种语言的表示与单语语料库对齐,以克服平行语料规模对模型性能的限制。我们的关键见解是将反向翻译集成到预训练过程中。我们在单语语料库上生成伪平行句对,以便学习不同语言之间的语义对齐,从而增强跨语言模型的语义建模。实验结果表明,ERNIE-M 优于现有的跨语言模型,并在各种跨语言下游任务中取得了新的最先进结果。此模型由Susnato Dhar贡献。原始代码可以在这里找到。

使用提示

  • Ernie-M 是类似 BERT 的模型,因此是堆叠的 Transformer 编码器。

  • 作者们没有像 BERT 那样使用 MaskedLM 进行预训练,而是使用了两种新技术:交叉注意力遮蔽语言建模反向翻译遮蔽语言建模。目前这两个 LMHead 目标在这里没有实现。

  • 这是一个多语言语言模型。

  • 下一句预测在预训练过程中没有使用。

资源

  • 文本分类任务指南

  • 标记分类任务指南

  • 问答任务指南

  • 多项选择任务指南

ErnieM 配置

class transformers.ErnieMConfig

<来源>

( vocab_size: int = 250002 hidden_size: int = 768 num_hidden_layers: int = 12 num_attention_heads: int = 12 intermediate_size: int = 3072 hidden_act: str = 'gelu' hidden_dropout_prob: float = 0.1 attention_probs_dropout_prob: float = 0.1 max_position_embeddings: int = 514 initializer_range: float = 0.02 pad_token_id: int = 1 layer_norm_eps: float = 1e-05 classifier_dropout = None act_dropout = 0.0 **kwargs )

参数

  • vocab_sizeint可选,默认为 250002)— inputs_ids在 ErnieMModel 中的词汇大小。也是标记嵌入矩阵的词汇大小。定义了在调用 ErnieMModel 时可以表示的不同标记数量。

  • hidden_sizeint可选,默认为 768)— 嵌入层、编码器层和池化层的维度。

  • num_hidden_layersint可选,默认为 12)— Transformer 编码器中的隐藏层数。

  • num_attention_headsint可选,默认为 12)— Transformer 编码器中每个注意力层的注意力头数。

  • intermediate_sizeint可选,默认为 3072)— 编码器中前馈(ff)层的维度。输入张量首先从 hidden_size 投影到 intermediate_size,然后再投影回 hidden_size。通常 intermediate_size 大于 hidden_size。

  • hidden_act (str, optional, defaults to "gelu") — 前馈层中的非线性激活函数。支持 "gelu""relu" 和其他 torch 支持的激活函数。

  • hidden_dropout_prob (float, optional, defaults to 0.1) — 嵌入和编码器中所有全连接层的丢弃概率。

  • attention_probs_dropout_prob (float, optional, defaults to 0.1) — 所有编码器层中 MultiHeadAttention 中使用的 dropout 概率,用于丢弃一些注意力目标。

  • max_position_embeddings (int, optional, defaults to 514) — 位置编码维度的最大值,决定了输入序列的最大支持长度。

  • initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的正态初始化器的标准差。标记词汇表中填充标记的索引。

  • pad_token_id (int, optional, defaults to 1) — 填充标记 ID。

  • layer_norm_eps (float, optional, defaults to 1e-05) — 层归一化层使用的 epsilon。

  • classifier_dropout (float, optional) — 分类头的丢弃比率。

  • act_dropout (float, optional, defaults to 0.0) — 此丢弃概率用于激活后的 ErnieMEncoderLayer

这是用于存储 ErnieMModel 配置的配置类。它用于根据指定的参数实例化 Ernie-M 模型,定义模型架构。使用默认值实例化配置将产生类似于 Ernie-M susnato/ernie-m-base_pytorch 架构的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档获取更多信息。

普通初始化器将权重矩阵初始化为正态分布。查看 ErnieMPretrainedModel._init_weights() 以了解在 ErnieMModel 中如何初始化权重。

ErnieMTokenizer

class transformers.ErnieMTokenizer

<来源>

( sentencepiece_model_ckpt vocab_file = None do_lower_case = False encoding = 'utf8' unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' sp_model_kwargs: Optional = None **kwargs )

参数

  • sentencepiece_model_file (str) — sentencepiece 模型文件路径。

  • vocab_file (str, optional) — 词汇表的文件路径。

  • do_lower_case (str, optional, defaults to True) — 在分词时是否将输入转换为小写。

  • unk_token (str, optional, defaults to "[UNK]") — 代表 未知(词汇外) 的特殊标记。未知标记被设置为 unk_token 以便转换为 ID。

  • sep_token (str, optional, defaults to "[SEP]") — 用于分隔同一输入中的两个不同句子的特殊标记。

  • pad_token (str, optional, defaults to "[PAD]") — 用于使标记数组大小相同以进行批处理的特殊标记。

  • cls_token (str, optional, defaults to "[CLS]") — 用于序列分类的特殊标记。在构建带有特殊标记的序列时,它是序列的最后一个标记。

  • mask_token (str, optional, defaults to "[MASK]") — 代表掩码标记的特殊标记。这是在掩码语言建模任务中使用的标记,模型尝试预测原始未掩码的标记。

构建 Ernie-M 分词器。它使用 sentencepiece 工具将单词切分为子词。

build_inputs_with_special_tokens

<来源>

( token_ids_0 token_ids_1 = None ) → export const metadata = 'undefined';List[int]

参数

  • token_ids_0List[int])- 将添加特殊标记的 ID 列表。

  • token_ids_1List[int]可选)- 第二个序列对应的 ID 列表。

返回

List[int]

带有适当特殊标记的 input_id 列表。

从一个序列或一对序列构建模型输入,用于序列分类任务,通过连接和添加特殊标记。ErnieM 序列具有以下格式:

  • 单个序列:[CLS] X [SEP]

  • 一对序列:[CLS] A [SEP] [SEP] B [SEP]

get_special_tokens_mask

<来源>

( token_ids_0 token_ids_1 = None already_has_special_tokens = False ) → export const metadata = 'undefined';List[int]

参数

  • token_ids_0List[int])- 第一个序列的 ID 列表。

  • token_ids_1List[int]可选)- 第二个序列对应的 ID 列表。

  • already_has_special_tokensstr可选,默认为False)- 标记列表是否已经使用特殊标记格式化。

返回

List[int]

范围为[0, 1]的整数列表:特殊标记为 1,序列标记为 0。

从没有添加特殊标记的标记列表中检索序列 id。在使用 tokenizer encode方法添加特殊标记时调用此方法。

create_token_type_ids_from_sequences

<来源>

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

  • token_ids_0List[int])- 第一个标记化序列。

  • token_ids_1List[int]可选)- 第二个标记化序列。

返回

List[int]

标记类型 ID。

创建与传递的序列相对应的 token 类型 ID。什么是 token 类型 ID? 如果模型有一种特殊的构建方式,应该在子类中重写这些。

save_vocabulary

<来源>

( save_directory: str filename_prefix: Optional = None )

ErnieMModel

class transformers.ErnieMModel

<来源>

( config add_pooling_layer = True )

参数

  • config(ErnieMConfig](/docs/transformers/v4.37.2/en/main_classes/model#transformers.PreTrainedModel.from_pretrained)方法以加载模型权重。

裸的 ErnieM 模型变压器输出原始隐藏状态,没有特定的头部。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

此模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None position_ids: Optional = None attention_mask: Optional = None head_mask: Optional = None inputs_embeds: Optional = None past_key_values: Optional = None use_cache: Optional = None output_hidden_states: Optional = None output_attentions: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)- 词汇表中输入序列标记的索引。

    可以使用 ErnieMTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:

    • 1 表示未被遮蔽的标记,

    • 0 表示被遮蔽的标记。

    什么是注意力遮罩?

  • position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值选择在[0, 1]之间:

    • 1 表示头部未被遮蔽

    • 0 表示头部被遮蔽

  • inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states

  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。

返回

transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或torch.FloatTensor元组

一个 transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或一个torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False时)包含根据配置(ErnieMConfig)和输入的不同元素。

  • last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层的输出中的隐藏状态序列。

    如果仅使用past_key_values,则输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。

  • past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=Trueconfig.use_cache=True时返回) — 长度为config.n_layerstuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量,以及如果config.is_encoder_decoder=True还有 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。

    包含预先计算的隐藏状态(自注意力块中的键和值,以及在交叉注意力块中如果config.is_encoder_decoder=True的情况下)可用于加速顺序解码(请参见past_key_values输入)。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每一层的输出)。

    模型在每一层输出的隐藏状态加上可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

  • cross_attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.add_cross_attention=Trueconfig.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。

ErnieMModel 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, ErnieMModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("susnato/ernie-m-base_pytorch")
>>> model = ErnieMModel.from_pretrained("susnato/ernie-m-base_pytorch")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

ErnieMForSequenceClassification

class transformers.ErnieMForSequenceClassification

<来源>

( config )

参数

  • config(ErnieMConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ErnieM 模型变压器,顶部带有序列分类/回归头(汇总输出的顶部线性层),例如用于 GLUE 任务。

此模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存,调整输入嵌入,修剪头等)。

此模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None past_key_values: Optional = None use_cache: Optional = None output_hidden_states: Optional = None output_attentions: Optional = None return_dict: Optional = True labels: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)- 词汇表中输入序列标记的索引。

    可以使用 ErnieMTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选)- 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间:

    • 对于未被屏蔽的标记为 1,

    • 对于被屏蔽的标记为 0。

    什么是注意力掩码?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)- 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

    什么是位置 ID?

  • head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值选在[0, 1]范围内:

    • 1 表示头部未被掩盖,

    • 0 表示头部被掩盖。

  • inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量下的attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回的张量下的hidden_states

  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。

  • labels (torch.LongTensor of shape (batch_size,), optional) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。

返回

transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.SequenceClassifierOutput 或一个torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False时)包含根据配置(ErnieMConfig)和输入不同元素。

  • loss (torch.FloatTensor of shape (1,), optional, 当提供labels时返回) — 分类(或回归,如果config.num_labels==1)损失。

  • logits (torch.FloatTensor of shape (batch_size, config.num_labels)) — 分类(或回归,如果config.num_labels==1)分数(SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每一层的输出)。

    模型在每一层输出的隐藏状态加上可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

ErnieMForSequenceClassification 前向方法,覆盖__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

单标签分类示例:

>>> import torch
>>> from transformers import AutoTokenizer, ErnieMForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("susnato/ernie-m-base_pytorch")
>>> model = ErnieMForSequenceClassification.from_pretrained("susnato/ernie-m-base_pytorch")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = ErnieMForSequenceClassification.from_pretrained("susnato/ernie-m-base_pytorch", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类示例:

>>> import torch
>>> from transformers import AutoTokenizer, ErnieMForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("susnato/ernie-m-base_pytorch")
>>> model = ErnieMForSequenceClassification.from_pretrained("susnato/ernie-m-base_pytorch", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = ErnieMForSequenceClassification.from_pretrained(
...     "susnato/ernie-m-base_pytorch", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

ErnieMForMultipleChoice

class transformers.ErnieMForMultipleChoice

<来源>

( config )

参数

  • config (ErnieMConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ErnieM 模型在顶部具有一个多选分类头(在汇总输出的顶部和 softmax 上的线性层),例如用于 RocStories/SWAG 任务。

这个模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

这个模型是 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = True ) → export const metadata = 'undefined';transformers.modeling_outputs.MultipleChoiceModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, num_choices, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 ErnieMTokenizer 获取索引。查看 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()获取详细信息。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor of shape (batch_size, num_choices, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:

    • 对于未被masked的标记,为 1。

    • 对于被masked的标记,为 0。

    什么是注意力掩码?

  • position_ids (torch.LongTensor of shape (batch_size, num_choices, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值选择在[0, 1]之间:

    • 1 表示头部未被masked

    • 0 表示头部被masked

  • inputs_embeds (torch.FloatTensor of shape (batch_size, num_choices, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请查看返回的张量下的attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请查看返回的张量下的hidden_states

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

  • labels(形状为(batch_size,)torch.LongTensor可选)- 用于计算多选分类损失的标签。索引应在[0, ..., num_choices-1]范围内,其中num_choices是输入张量第二维的大小。(参见上面的input_ids

返回

transformers.modeling_outputs.MultipleChoiceModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.MultipleChoiceModelOutput 或一个torch.FloatTensor元组(如果传递了return_dict=False或当config.return_dict=False时),包括根据配置(ErnieMConfig)和输入的各种元素。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)- 分类损失。

  • logits(形状为(batch_size, num_choices)torch.FloatTensor)- num_choices是输入张量的第二维。(参见上面的input_ids)。

    分类分数(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=True或当config.output_hidden_states=True时返回)- 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入输出的输出+每层的输出)。

    模型在每一层输出的隐藏状态以及可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=True或当config.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

ErnieMForMultipleChoice 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, ErnieMForMultipleChoice
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("susnato/ernie-m-base_pytorch")
>>> model = ErnieMForMultipleChoice.from_pretrained("susnato/ernie-m-base_pytorch")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."
>>> labels = torch.tensor(0).unsqueeze(0)  # choice0 is correct (according to Wikipedia ;)), batch size 1

>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="pt", padding=True)
>>> outputs = model(**{k: v.unsqueeze(0) for k, v in encoding.items()}, labels=labels)  # batch size is 1

>>> # the linear classifier still needs to be trained
>>> loss = outputs.loss
>>> logits = outputs.logits

ErnieMForTokenClassification

class transformers.ErnieMForTokenClassification

<来源>

( config )

参数

  • config(ErnieMConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ErnieM 模型,顶部带有一个标记分类头(隐藏状态输出的顶部线性层),例如用于命名实体识别(NER)任务。

这个模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

这个模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None past_key_values: Optional = None output_hidden_states: Optional = None output_attentions: Optional = None return_dict: Optional = True labels: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)— 词汇表中输入序列标记的索引。

    可以使用 ErnieMTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选)— 避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:

    • 对于未被掩码的标记为 1,

    • 对于被掩码的标记为 0。

    什么是注意力掩码?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]之间:

    • 1 表示头部未被掩码

    • 0 表示头部被掩码

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states

  • return_dictbool可选)— 是否返回一个 ModelOutput 而不是一个普通的元组。

  • labels(形状为(batch_size, sequence_length)torch.LongTensor可选)— 用于计算标记分类损失的标签。索引应在[0, ..., config.num_labels - 1]之间。

返回

transformers.modeling_outputs.TokenClassifierOutput 或者tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或者一个torch.FloatTensor的元组(如果传递了return_dict=False或者当config.return_dict=False时),包括根据配置(ErnieMConfig)和输入的不同元素。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)— 分类损失。

  • logits(形状为(batch_size, sequence_length, config.num_labels)torch.FloatTensor)— SoftMax 之前的分类分数。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=True或者当config.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出+每一层的输出)。

    模型在每一层输出的隐藏状态以及可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回) - 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

ErnieMForTokenClassification 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, ErnieMForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("susnato/ernie-m-base_pytorch")
>>> model = ErnieMForTokenClassification.from_pretrained("susnato/ernie-m-base_pytorch")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss

ErnieM 用于问答

class transformers.ErnieMForQuestionAnswering

<来源>

( config )

参数

  • config(ErnieMConfig) - 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ErnieM 模型,顶部带有一个用于提取式问答任务(如 SQuAD)的跨度分类头(在隐藏状态输出的顶部有线性层,用于计算span start logitsspan end logits)。

这个模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

这个模型是 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = True ) → export const metadata = 'undefined';transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor) - 词汇表中输入序列 token 的索引。

    可以使用 ErnieMTokenizer 获取索引。查看 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()获取详细信息。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选) - 用于避免在填充 token 索引上执行注意力的 mask。选择的 mask 值在[0, 1]中:

    • 1 表示未被masked的 tokens,

    • 0 表示被masked的 tokens。

    什么是注意力 mask?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选) - 每个输入序列 token 在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

    什么是位置 ID?

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选) - 用于使自注意力模块的选定头部失效的 mask。选择的 mask 值在[0, 1]中:

    • 1 表示头部未被masked

    • 0 表示头部被masked

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)- 可选地,您可以选择直接传递嵌入表示而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentionsbool可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量下的attentions

  • output_hidden_statesbool可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回的张量下的hidden_states

  • return_dictbool可选)- 是否返回 ModelOutput 而不是普通元组。

  • start_positions(形状为(batch_size,)torch.LongTensor可选)- 用于计算标记跨度的开始位置(索引)的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。

  • end_positions(形状为(batch_size,)torch.LongTensor可选)- 用于计算标记跨度的结束位置(索引)的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。

返回

transformers.modeling_outputs.QuestionAnsweringModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个torch.FloatTensor元组(如果传递了return_dict=Falseconfig.return_dict=False时)包含根据配置(ErnieMConfig)和输入的各种元素。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)- 总跨度提取损失是开始和结束位置的交叉熵之和。

  • start_logits(形状为(batch_size, sequence_length)torch.FloatTensor)- 跨度开始得分(SoftMax 之前)。

  • end_logits(形状为(batch_size, sequence_length)torch.FloatTensor)- 跨度结束得分(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)- 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出加上每层的输出)。

    模型在每一层输出的隐藏状态加上可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

ErnieMForQuestionAnswering 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是在此之后调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, ErnieMForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("susnato/ernie-m-base_pytorch")
>>> model = ErnieMForQuestionAnswering.from_pretrained("susnato/ernie-m-base_pytorch")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss

ErnieMForInformationExtraction

class transformers.ErnieMForInformationExtraction

< source >

( config )

参数

  • config (ErnieMConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。

ErnieMForInformationExtraction 是一个 Ernie-M 模型,其顶部有两个线性层,用于计算 start_probend_prob,设计用于通用信息提取。

此模型继承自 PreTrainedModel。检查超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

此模型是 PyTorch torch.nn.Module 的子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

< source >

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = True )

参数

  • input_ids (torch.LongTensor of shape (batch_size, num_choices, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 ErnieMTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor of shape (batch_size, num_choices, sequence_length), optional) — 遮蔽以避免在填充标记索引上执行注意力。遮罩值选择在 [0, 1]

    • 1 表示未被遮蔽的标记,

    • 0 表示被遮蔽的标记。

    什么是注意力遮罩?

  • position_ids (torch.LongTensor of shape (batch_size, num_choices, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部无效的遮罩。遮罩值选择在 [0, 1]

    • 1 表示头部未被遮蔽,

    • 0 表示头部被遮蔽。

  • inputs_embeds (torch.FloatTensor of shape (batch_size, num_choices, sequence_length, hidden_size), optional) — 可选,可以直接传递嵌入表示,而不是传递 input_ids。如果您想要更多控制权,以便将 input_ids 索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

  • start_positions(形状为(batch_size, sequence_length)torch.LongTensor可选)- 用于计算起始位置损失的位置(索引)标签。序列之外的位置不会计入损失的计算。

  • end_positions(形状为(batch_size,)torch.LongTensor可选)- 用于计算结束位置损失的位置(索引)标签。序列之外的位置不会计入损失的计算。

ErnieMForInformationExtraction 的前向方法重写了__call__特殊方法。

尽管前向传播的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则会默默地忽略它们。

ESM

原文链接:huggingface.co/docs/transformers/v4.37.2/en/model_doc/esm

概述

本页面提供了 Meta AI 基础人工智能研究团队的 Transformer 蛋白质语言模型的代码和预训练权重,提供了最先进的 ESMFold 和 ESM-2,以及之前发布的 ESM-1b 和 ESM-1v。Transformer 蛋白质语言模型是由 Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma 和 Rob Fergus 在论文Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences中引入的。该论文的第一个版本于 2019 年预印

ESM-2 在一系列结构预测任务中表现优异,胜过所有经过测试的单序列蛋白质语言模型,并实现了原子分辨率结构预测。该模型是由 Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Sal Candido 和 Alexander Rives 在论文Language models of protein sequences at the scale of evolution enable accurate structure prediction中发布的。

该论文还介绍了 ESMFold。它使用了一个 ESM-2 干部,带有一个可以以最先进的准确性预测折叠蛋白质结构的头部。与AlphaFold2不同,它依赖于大型预训练蛋白质语言模型干部的标记嵌入,并且在推断时不执行多序列比对(MSA)步骤,这意味着 ESMFold 检查点完全是“独立的” - 它们不需要已知蛋白质序列和结构的数据库以及相关的外部查询工具来进行预测,并且因此速度更快。

来自“Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences”的摘要是

在人工智能领域,通过无监督学习实现的数据规模和模型容量的结合,推动了表示学习和统计生成方面的重大进展。在生命科学领域,预期的测序增长将带来有关自然序列多样性的前所未有的数据。在进化规模上进行蛋白质语言建模是生物学预测和生成人工智能的逻辑步骤。为此,我们使用无监督学习在跨越进化多样性的 250 亿蛋白质序列中训练了一个深度上下文语言模型,共计 860 亿个氨基酸。所得模型包含有关生物性质的信息。这些表示仅从序列数据中学习而来。学习到的表示空间具有多尺度组织,反映了从氨基酸的生化性质到蛋白质的远程同源的结构。表示中编码了有关二级和三级结构的信息,并可以通过线性投影进行识别。表示学习产生了能够在一系列应用中泛化的特征,实现了最先进的突变效应和二级结构的监督预测,并改进了长程接触预测的最先进特征。

来自“Language models of protein sequences at the scale of evolution enable accurate structure prediction”的摘要是

最近已经证明,大型语言模型在规模上具有新兴的能力,超越简单的模式匹配,进行更高级别的推理,并生成逼真的图像和文本。虽然在蛋白质序列上训练的语言模型已经在较小规模上进行了研究,但对于它们在扩大规模时学习到的生物学知识知之甚少。在这项工作中,我们训练了具有 150 亿参数的模型,这是迄今为止评估的最大蛋白质语言模型。我们发现随着模型的扩大,它们学习到的信息使得能够预测蛋白质的三维结构,分辨率达到单个原子。我们提出了 ESMFold,用于直接从蛋白质的个体序列进行高精度端到端的原子级结构预测。ESMFold 对于低困惑度且被语言模型充分理解的序列具有与 AlphaFold2 和 RoseTTAFold 相似的准确性。ESMFold 推理速度比 AlphaFold2 快一个数量级,使得能够在实际时间范围内探索宏基因组蛋白质的结构空间。

原始代码可以在 这里 找到,并由 Meta AI 的 Fundamental AI Research 团队开发。ESM-1b、ESM-1v 和 ESM-2 由 jasonliuMatt 贡献给了 HuggingFace。

ESMFold 由 MattSylvain 贡献给了 HuggingFace,特别感谢 Nikita Smetanin、Roshan Rao 和 Tom Sercu 在整个过程中的帮助!

使用提示

  • ESM 模型是使用掩码语言建模(MLM)目标进行训练的。

  • HuggingFace 移植的 ESMFold 使用了 openfold 库的部分内容。openfold 库使用 Apache License 2.0 许可。

资源

  • 文本分类任务指南

  • 标记分类任务指南

  • 掩码语言建模任务指南

EsmConfig

class transformers.EsmConfig

< source >

( vocab_size = None mask_token_id = None pad_token_id = None hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 1026 initializer_range = 0.02 layer_norm_eps = 1e-12 position_embedding_type = 'absolute' use_cache = True emb_layer_norm_before = None token_dropout = False is_folding_model = False esmfold_config = None vocab_list = None **kwargs )

参数

  • vocab_size (int, optional) — ESM 模型的词汇表大小。定义了在调用 ESMModel 时可以表示的不同标记数量。

  • mask_token_id (int, optional) — 词汇表中掩码标记的索引。由于“mask-dropout”缩放技巧,必须在配置中包含此项,该技巧将根据掩码标记的数量来缩放输入。

  • pad_token_id (int, optional) — 词汇表中填充标记的索引。由于 ESM 代码的某些部分使用此标记而不是注意力掩码,因此必须在配置中包含此项。

  • hidden_size (int, optional, 默认为 768) — 编码器层和池化器层的维度。

  • num_hidden_layers (int, optional, 默认为 12) — Transformer 编码器中的隐藏层数量。

  • num_attention_heads (int, optional, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。

  • intermediate_size (int, optional, 默认为 3072) — Transformer 编码器中“中间”(通常称为前馈)层的维度。

  • hidden_dropout_prob (float, optional, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的丢弃概率。

  • attention_probs_dropout_prob (float, optional, 默认为 0.1) — 注意力概率的丢弃比率。

  • max_position_embeddings (int, optional, 默认为 1026) — 该模型可能会与之一起使用的最大序列长度。通常将其设置为较大的值以防万一(例如,512、1024 或 2048)。

  • initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。

  • layer_norm_eps (float, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。

  • position_embedding_type (str, optional, defaults to "absolute") — 位置嵌入的类型。选择 "absolute", "relative_key", "relative_key_query", "rotary" 中的一个。对于位置嵌入使用 "absolute"。有关 "relative_key" 的更多信息,请参考 Self-Attention with Relative Position Representations (Shaw et al.)。有关 "relative_key_query" 的更多信息,请参考 [Improve Transformer Models with Better Relative Position Embeddings (Huang et al.)] 中的 Method 4 (https://arxiv.org/abs/2009.13658)。

  • is_decoder (bool, optional, defaults to False) — 模型是否用作解码器。如果为 False,则模型用作编码器。

  • use_cache (bool, optional, defaults to True) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。仅在 config.is_decoder=True 时相关。

  • emb_layer_norm_before (bool, optional) — 是否在嵌入之后但在网络主干之前应用层归一化。

  • token_dropout (bool, defaults to False) — 启用此选项时,掩码标记将被视为已通过输入丢失删除。

这是用于存储 ESMModel 配置的配置类。根据指定的参数实例化一个 ESM 模型,定义模型架构。使用默认值实例化配置将产生类似于 ESM facebook/esm-1b 架构的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。

示例:

>>> from transformers import EsmModel, EsmConfig

>>> # Initializing a ESM facebook/esm-1b style configuration >>> configuration = EsmConfig()

>>> # Initializing a model from the configuration >>> model = ESMModel(configuration)

>>> # Accessing the model configuration >>> configuration = model.config

to_dict

<来源>

( ) → export const metadata = 'undefined';Dict[str, any]

返回

Dict[str, any]

包含构成此配置实例的所有属性的字典,

将此实例序列化为 Python 字典。覆盖默认的 to_dict()。

EsmTokenizer

class transformers.EsmTokenizer

<来源>

( vocab_file unk_token = '<unk>' cls_token = '<cls>' pad_token = '<pad>' mask_token = '<mask>' eos_token = '<eos>' **kwargs )

构造一个 ESM 分词器。

build_inputs_with_special_tokens

<来源>

( token_ids_0: List token_ids_1: Optional = None )

get_special_tokens_mask

<来源>

( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → export const metadata = 'undefined';A list of integers in the range [0, 1]

参数

  • token_ids_0 (List[int]) — 第一个序列的 id 列表。

  • token_ids_1 (List[int], optional) — 第二个序列的 id 列表。

  • already_has_special_tokens (bool, optional, defaults to False) — 标记列表是否已经格式化为模型的特殊标记。

返回

一个范围在 [0, 1] 内的整数列表

1 表示特殊标记,0 表示序列标记。

从没有添加特殊标记的标记列表中检索序列 id。当使用 tokenizer 的 prepare_for_modelencode_plus 方法添加特殊标记时,将调用此方法。

create_token_type_ids_from_sequences

<来源>

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

  • token_ids_0 (List[int]) — 第一个标记化序列。

  • token_ids_1List[int]可选)- 第二个令牌化序列。

返回

List[int]

令牌类型 ID。

创建与传递的序列相对应的令牌类型 ID。什么是令牌类型 ID?

如果模型有特殊的构建方式,应该在子类中重写。

save_vocabulary

<来源>

( save_directory filename_prefix )

Pytorch 隐藏 Pytorch 内容

EsmModel

类 transformers.EsmModel

<来源>

( config add_pooling_layer = True )

参数

  • config(EsmConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

裸 ESM 模型变压器输出原始隐藏状态,没有特定的头部。

这个模型继承自 PreTrainedModel。查看超类文档,了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

该模型可以作为编码器(仅具有自注意力)以及解码器行为,此时在自注意力层之间添加了一层交叉注意力,遵循Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N. Gomez、Lukasz Kaiser 和 Illia Polosukhin 所描述的架构

为了作为解码器行为,模型需要使用配置中设置为Trueis_decoder参数进行初始化。要在 Seq2Seq 模型中使用,模型需要使用is_decoder参数和add_cross_attention设置为True进行初始化;然后期望将encoder_hidden_states作为输入传递。

前进

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None past_key_values: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions or tuple(torch.FloatTensor)

参数

  • input_ids(形状为((batch_size, sequence_length))torch.LongTensor)- 词汇表中输入序列令牌的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask(形状为((batch_size, sequence_length))torch.FloatTensor可选)- 避免在填充令牌索引上执行注意力的掩码。掩码值选择在[0, 1]中:

    • 1 对于“未屏蔽”的标记,

    • 0 对于“屏蔽”的标记。

    什么是注意力掩码?

  • position_ids(形状为((batch_size, sequence_length))torch.LongTensor可选)- 每个输入序列令牌在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

    什么是位置 ID?

  • head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部失效的掩码。掩码值选在[0, 1]之间:

    • 1 表示头部未被掩盖,

    • 0 表示头部被掩盖。

  • inputs_embeds (torch.FloatTensor of shape ((batch_size, sequence_length), hidden_size), optional) — 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

  • encoder_hidden_states (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 编码器最后一层的隐藏状态序列。如果模型配置为解码器,则在交叉注意力中使用。

  • encoder_attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在编码器输入的填充标记索引上执行注意力的掩码。如果模型配置为解码器,则在交叉注意力中使用此掩码。掩码值选在[0, 1]之间:

    • 1 表示未被掩盖的标记,

    • 0 表示被掩盖的标记。

  • past_key_values (tuple(tuple(torch.FloatTensor)),长度为config.n_layers,每个元组有 4 个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)的张量) — 包含注意力块的预计算键和值隐藏状态。可用于加速解码。

    如果使用past_key_values,用户可以选择仅输入最后一个形状为(batch_size, 1)decoder_input_ids(这些没有将其过去的键值状态提供给此模型的输入)而不是形状为(batch_size, sequence_length)的所有decoder_input_ids

  • use_cache (bool, optional) — 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。

返回

transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或tuple(torch.FloatTensor)

transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions 或一个torch.FloatTensor元组(如果传递了return_dict=Falseconfig.return_dict=False)包含根据配置(EsmConfig)和输入的不同元素。

  • last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列的输出。

  • pooler_output (torch.FloatTensor of shape (batch_size, hidden_size)) — 经过进一步处理的序列第一个标记(分类标记)的最后一层隐藏状态(辅助预训练任务中使用的层)。例如,对于 BERT 系列模型,这将返回经过线性层和 tanh 激活函数处理后的分类标记。线性层权重是从预训练期间的下一个句子预测(分类)目标中训练的。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出+每层的输出)。

    模型在每一层输出的隐藏状态以及可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在自注意力头中,注意力 softmax 之后的注意力权重,用于计算加权平均值。

  • cross_attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.add_cross_attention=Trueconfig.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。

  • past_key_valuestuple(tuple(torch.FloatTensor))可选,当传递use_cache=Trueconfig.use_cache=True时返回)— 长度为config.n_layerstuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量,如果config.is_encoder_decoder=True,还有 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。

    包含预先计算的隐藏状态(自注意力块中的键和值,以及在交叉注意力块中,如果config.is_encoder_decoder=True,还可以使用past_key_values输入)以加速顺序解码。

EsmModel 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是调用此函数,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, EsmModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = EsmModel.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

EsmForMaskedLM

class transformers.EsmForMaskedLM

<来源>

( config )

参数

  • config(EsmConfig)— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

在顶部带有语言建模头的 ESM 模型。

该模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

该模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有信息。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None encoder_hidden_states: Optional = None encoder_attention_mask: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MaskedLMOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)— 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选)— 用于避免在填充标记索引上执行注意力的掩码。选择的掩码值在[0, 1]中:

    • 1 表示未被“掩盖”的标记,

    • 0 表示被“掩盖”的标记。

    什么是注意力掩码?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

    什么是位置 ID?

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)— 用于使自注意力模块的选定头部失效的掩码。选择的掩码值在[0, 1]中:

    • 1 表示未被“掩盖”的头部,

    • 0 表示头部被“掩盖”。

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dictbool可选)— 是否返回 ModelOutput 而不是普通元组。

  • labels(形状为(batch_size, sequence_length)torch.LongTensor可选)— 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]中(请参阅input_ids文档字符串)。索引设置为-100的标记将被忽略(掩盖),仅对具有标签在[0, ..., config.vocab_size]中的标记计算损失

  • kwargsDict[str, any],可选,默认为{})— 用于隐藏已弃用的旧参数。

返回

transformers.modeling_outputs.MaskedLMOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.MaskedLMOutput 或一个torch.FloatTensor元组(如果传递return_dict=False或当config.return_dict=False时)包含各种元素,具体取决于配置(EsmConfig)和输入。

  • loss(形状为(1,)torch.FloatTensor可选,在提供labels时返回)— 掩码语言建模(MLM)损失。

  • logits(形状为(batch_size, sequence_length, config.vocab_size)torch.FloatTensor)— 语言建模头部的预测分数(SoftMax 之前每个词汇标记的分数)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=True或当config.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型具有嵌入层的输出,则为嵌入的输出+每层的输出)。

    模型在每一层输出处的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递output_attentions=True或当config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

EsmForMaskedLM 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, EsmForMaskedLM
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = EsmForMaskedLM.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer("The capital of France is <mask>.", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # retrieve index of <mask>
>>> mask_token_index = (inputs.input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0]

>>> predicted_token_id = logits[0, mask_token_index].argmax(axis=-1)

>>> labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]
>>> # mask labels of non-<mask> tokens
>>> labels = torch.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)

>>> outputs = model(**inputs, labels=labels)

EsmForSequenceClassification

class transformers.EsmForSequenceClassification

<来源>

( config )

参数

  • config (EsmConfig) — 模型的所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

ESM 模型变压器,顶部带有序列分类/回归头(池化输出顶部的线性层),例如用于 GLUE 任务。

这个模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()获取详细信息。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor,形状为(batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意力的掩码。选择的掩码值为[0, 1]

    • 1 表示未被masked的标记,

    • 0 表示被masked的标记。

    什么是注意力掩码?

  • position_ids (torch.LongTensor,形状为(batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask (torch.FloatTensor,形状为(num_heads,)(num_layers, num_heads)可选) — 用于使自注意力模块的选定头部失效的掩码。选择的掩码值为[0, 1]

    • 1 表示头部未被masked

    • 0 表示头部被masked

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states

  • return_dictbool可选)— 是否返回 ModelOutput 而不是普通元组。

  • labels(形状为(batch_size,)torch.LongTensor可选)— 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。

返回值

transformers.modeling_outputs.SequenceClassifierOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.SequenceClassifierOutput 或一个torch.FloatTensor元组(如果传递了return_dict=Falseconfig.return_dict=False时)包含各种元素,具体取决于配置(EsmConfig)和输入。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)— 分类(如果config.num_labels==1则为回归)损失。

  • logits(形状为(batch_size, config.num_labels)torch.FloatTensor)— 分类(如果config.num_labels==1则为回归)得分(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出,+ 每层的输出)。

    模型在每一层输出的隐藏状态以及可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在自注意力头中用于计算加权平均值的注意力 softmax 之后的注意力权重。

EsmForSequenceClassification 的前向方法,覆盖了__call__特殊方法。

尽管前向传播的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。

单标签分类示例:

>>> import torch
>>> from transformers import AutoTokenizer, EsmForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = EsmForSequenceClassification.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = EsmForSequenceClassification.from_pretrained("facebook/esm2_t6_8M_UR50D", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类示例:

>>> import torch
>>> from transformers import AutoTokenizer, EsmForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = EsmForSequenceClassification.from_pretrained("facebook/esm2_t6_8M_UR50D", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = EsmForSequenceClassification.from_pretrained(
...     "facebook/esm2_t6_8M_UR50D", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

EsmForTokenClassification

class transformers.EsmForTokenClassification

< source >

( config )

参数

  • config (EsmConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ESM 模型在顶部带有一个标记分类头部(隐藏状态输出的顶部线性层),例如用于命名实体识别(NER)任务。

该模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

该模型也是 PyTorch torch.nn.Module的子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

< source >

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor,形状为(batch_size, sequence_length)optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间:

    • 1 表示未被遮蔽的标记,

    • 0 表示被遮蔽的标记。

    什么是注意力掩码?

  • position_ids (torch.LongTensor,形状为(batch_size, sequence_length)optional) — 每个输入序列标记在位置嵌入中的位置索引。选在范围[0, config.max_position_embeddings - 1]内。

    什么是位置 ID?

  • head_mask (torch.FloatTensor,形状为(num_heads,)(num_layers, num_heads)optional) — 用于使自注意力模块中的特定头部失效的掩码。掩码值选在[0, 1]之间:

    • 1 表示头部未被遮蔽,

    • 0 表示头部被遮蔽。

  • inputs_embeds (torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)optional) — 可选地,您可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states

  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。

  • labels (torch.LongTensor,形状为(batch_size, sequence_length)optional) — 用于计算标记分类损失的标签。索引应在[0, ..., config.num_labels - 1]内。

返回

transformers.modeling_outputs.TokenClassifierOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个torch.FloatTensor元组(如果传递了return_dict=Falseconfig.return_dict=False时)包含各种元素,具体取决于配置(EsmConfig)和输入。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)-分类损失。

  • logits(形状为(batch_size, sequence_length, config.num_labels)torch.FloatTensor)-分类分数(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)-形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入输出的输出+每一层的输出)。

    模型在每一层输出的隐藏状态加上可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)-形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在自注意力头中用于计算加权平均值的注意力权重 softmax 后。

EsmForTokenClassification 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, EsmForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = EsmForTokenClassification.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss

EsmForProteinFolding

class transformers.EsmForProteinFolding

<来源>

( config )

参数

  • config(EsmConfig)-包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ESMForProteinFolding 是原始 ESMFold 模型的 HuggingFace 移植版。它由一个 ESM-2“干”部分和一个蛋白质折叠“头”部分组成,尽管与大多数其他输出头部不同,这个“头”部分在大小和运行时间上与模型的其余部分相似!它输出一个包含关于输入蛋白质的预测结构信息的字典。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Tensor attention_mask: Optional = None position_ids: Optional = None masking_pattern: Optional = None num_recycles: Optional = None ) → export const metadata = 'undefined';transformers.models.esm.modeling_esmfold.EsmForProteinFoldingOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)-词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor,形状为(batch_size, sequence_length)可选) — 避免在填充令牌索引上执行注意力的掩码。掩码值选在[0, 1]之间:

    • 对于未被masked的令牌为 1,

    • 对于被masked的令牌为 0。

    什么是注意力掩码?

  • position_ids (torch.LongTensor,形状为(batch_size, sequence_length)可选) — 每个输入序列令牌在位置嵌入中的位置索引。选在范围[0, config.max_position_embeddings - 1]内。

    什么是位置 ID?

  • masking_pattern (torch.LongTensor,形状为(batch_size, sequence_length)可选) — 在训练期间要屏蔽的令牌位置,作为一种正则化形式。掩码值选在[0, 1]之间。

  • num_recycles (int可选,默认为None) — 重复输入序列的次数。如果为None,则默认为config.num_recycles。 “Recycling”包括将折叠主干的输出作为输入传递给主干。在训练期间,每个批次的循环次数应该随着每次循环而变化,以确保模型学会在每次循环后输出有效的预测。在推断期间,num_recycles 应设置为模型训练的最大值,以获得最大准确性。因此,当此值设置为None时,将使用 config.max_recycles。

返回

transformers.models.esm.modeling_esmfold.EsmForProteinFoldingOutputtuple(torch.FloatTensor)

一个transformers.models.esm.modeling_esmfold.EsmForProteinFoldingOutput或一个torch.FloatTensor元组(如果传递了return_dict=False或当config.return_dict=False时)包含根据配置(<class 'transformers.models.esm.configuration_esm.EsmConfig'>)和输入的不同元素。

  • frames (torch.FloatTensor) — 输出的框架。

  • sidechain_frames (torch.FloatTensor) — 输出的侧链框架。

  • unnormalized_angles (torch.FloatTensor) — 预测的未归一化主链和侧链扭转角度。

  • angles (torch.FloatTensor) — 预测的主链和侧链扭转角度。

  • positions (torch.FloatTensor) — 预测的主链和侧链原子位置。

  • states (torch.FloatTensor) — 蛋白质折叠主干的隐藏状态。

  • s_s (torch.FloatTensor) — 通过连接 ESM-2 LM 干每一层的隐藏状态派生的每个残基的嵌入。

  • s_z (torch.FloatTensor) — 成对残基嵌入。

  • distogram_logits (torch.FloatTensor) — 用于计算残基距离的 distogram 的输入 logits。

  • lm_logits (torch.FloatTensor) — ESM-2 蛋白质语言模型干输出的 logits。

  • aatype (torch.FloatTensor) — 输入的氨基酸(AlphaFold2 索引)。

  • atom14_atom_exists (torch.FloatTensor) — 每个原子是否存在于 atom14 表示中。

  • residx_atom14_to_atom37 (torch.FloatTensor) — 在 atom14 和 atom37 表示之间的原子映射。

  • residx_atom37_to_atom14 (torch.FloatTensor) — 在 atom37 和 atom14 表示之间的原子映射。

  • atom37_atom_exists (torch.FloatTensor) — 每个原子是否存在于 atom37 表示中。

  • residue_index (torch.FloatTensor) — 蛋白质链中每个残基的索引。除非使用内部填充令牌,否则这将是从 0 到sequence_length的整数序列。

  • lddt_head (torch.FloatTensor) — 用于计算 plddt 的 lddt 头部的原始输出。

  • plddt (torch.FloatTensor) — 每个残基的置信度分数。低置信度区域可能表明模型预测不确定的区域,或者蛋白质结构无序的区域。

  • ptm_logits (torch.FloatTensor) — 用于计算 ptm 的原始对数。

  • ptm (torch.FloatTensor) — TM-score 输出,代表模型对整体结构的高级置信度。

  • aligned_confidence_probs (torch.FloatTensor) — 对齐结构的每个残基的置信度分数。

  • predicted_aligned_error (torch.FloatTensor) — 模型预测与真实值之间的预测误差。

  • max_predicted_aligned_error (torch.FloatTensor) — 每个样本的最大预测误差。

EsmForProteinFolding 的前向方法,覆盖了 __call__ 特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用 Module 实例,而不是在此处调用,因为前者会负责运行前后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, EsmForProteinFolding

>>> model = EsmForProteinFolding.from_pretrained("facebook/esmfold_v1")
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esmfold_v1")
>>> inputs = tokenizer(["MLKNVQVQLV"], return_tensors="pt", add_special_tokens=False)  # A tiny random peptide
>>> outputs = model(**inputs)
>>> folded_positions = outputs.positions

TensorFlow 隐藏 TensorFlow 内容

TFEsmModel

class transformers.TFEsmModel

< source >

( config: EsmConfig add_pooling_layer = True *inputs **kwargs )

参数

  • config (EsmConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。

裸 ESM 模型变压器输出原始隐藏状态,没有特定的头部。

该模型继承自 TFPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

该模型也是 Keras Model 子类。将其用作常规 Keras 模型,并参考 TF/Keras 文档以了解所有与一般使用和行为相关的事项。

call

< source >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None encoder_hidden_states: np.ndarray | tf.Tensor | None = None encoder_attention_mask: np.ndarray | tf.Tensor | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions or tuple(tf.Tensor)

参数

  • input_ids (tf.Tensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以获取详细信息。

    什么是输入 ID?

  • attention_mask (tf.Tensor of shape (batch_size, sequence_length), optional) — 避免在填充标记索引上执行注意力的掩码。掩码值选在 [0, 1]

    • 1 表示 未被掩盖 的标记,

    • 0 表示 被掩盖 的标记。

    什么是注意力掩码?

  • position_ids (tf.Tensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选在范围 [0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask (tf.Tensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值选在 [0, 1]

    • 1 表示头部 未被掩盖

    • 0 表示头部被 掩盖

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)tf.Tensor可选)— 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这很有用。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dictbool可选)— 是否返回一个 ModelOutput 而不是一个普通元组。

  • encoder_hidden_states(形状为(batch_size, sequence_length, hidden_size)tf.Tensor可选)— 编码器最后一层的隐藏状态序列。如果模型配置为解码器,则在交叉注意力中使用。

  • encoder_attention_mask(形状为(batch_size, sequence_length)tf.Tensor可选)— 避免对编码器输入的填充标记索引执行注意力的掩码。如果模型配置为解码器,则在交叉注意力中使用。掩码值选择在[0, 1]中。

    • 对于未被掩码的标记为 1,

    • 对于被掩码的标记为 0。

  • past_key_values(长度为config.n_layersTuple[Tuple[tf.Tensor]])— 包含注意力块的预计算键和值隐藏状态。可用于加速解码。如果使用past_key_values,用户可以选择仅输入最后的decoder_input_ids(那些没有将其过去的键值状态提供给此模型的)的形状为(batch_size, 1)而不是所有decoder_input_ids的形状为(batch_size, sequence_length)

  • use_cachebool可选,默认为True)— 如果设置为True,将返回past_key_values键值状态,可用于加速解码(参见past_key_values)。在训练期间设置为False,在生成期间设置为True

返回

transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions 或者tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions 或者一个tf.Tensor元组(如果传递了return_dict=False或者config.return_dict=False时)包括根据配置(EsmConfig)和输入的不同元素。

  • last_hidden_state(形状为(batch_size, sequence_length, hidden_size)tf.Tensor)— 模型最后一层的隐藏状态序列。

  • pooler_output(形状为(batch_size, hidden_size)tf.Tensor)— 序列第一个标记(分类标记)的最后一层隐藏状态,经过线性层和 Tanh 激活函数进一步处理。线性层的权重是在预训练期间从下一个句子预测(分类)目标中训练的。

    此输出通常不是输入的语义内容的良好摘要,您通常最好对整个输入序列的隐藏状态进行平均或池化。

  • past_key_valuesList[tf.Tensor]可选,当传递use_cache=True或者config.use_cache=True时返回)— 长度为config.n_layerstf.Tensor列表,每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)

    包含预先计算的隐藏状态(注意力块中的键和值),可用于加速顺序解码。

  • hidden_statestuple(tf.Tensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)-形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入的输出+一个用于每一层的输出)。

    模型在每一层的输出处的隐藏状态加上初始嵌入输出。

  • attentionstuple(tf.Tensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)-形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • cross_attentionstuple(tf.Tensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)-形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每层一个)。

    解码器的交叉注意力层的注意力权重,在注意力 softmax 后使用,用于计算交叉注意力头中的加权平均值。

TFEsmModel 前向方法,覆盖__call__特殊方法。

虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者负责运行前后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFEsmModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = TFEsmModel.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFEsmForMaskedLM

class transformers.TFEsmForMaskedLM

<来源>

( config )

参数

  • config(EsmConfig)-模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ESM 模型顶部带有语言建模头。

这个模型继承自 TFPreTrainedModel。查看超类文档以了解库实现的通用方法(如下载或保存,调整输入嵌入,修剪头等)。

这个模型也是 Keras Model 的子类。将其用作常规 Keras 模型,并参考 TF/Keras 文档以了解所有与一般用法和行为相关的事项。

call

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None encoder_hidden_states: np.ndarray | tf.Tensor | None = None encoder_attention_mask: np.ndarray | tf.Tensor | None = None labels: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFMaskedLMOutput or tuple(tf.Tensor)

参数

  • input_ids(形状为(batch_size, sequence_length)tf.Tensor)-词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()获取详细信息。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)tf.Tensor可选)-避免在填充标记索引上执行注意力的掩码。选择在[0, 1]中的掩码值:

    • 对于未被屏蔽的标记为 1,

    • 对于被屏蔽的标记为 0。

    注意力掩码是什么?

  • position_ids (tf.Tensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是位置 ID?

  • head_mask (tf.Tensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于将自注意力模块的选定头部置零的掩码。掩码值选定在 [0, 1] 之间:

    • 1 表示头部未被 masked

    • 0 表示头部被 masked

  • inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,可以直接传递嵌入表示,而不是传递 input_ids。如果您想要更多控制权,以便将 input_ids 索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的 attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的 hidden_states

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

  • labels (tf.Tensor of shape (batch_size, sequence_length), optional) — 用于计算掩码语言建模损失的标签。索引应在 [-100, 0, ..., config.vocab_size] 范围内(参见 input_ids 文档字符串)。索引设置为 -100 的标记将被忽略(masked),损失仅计算具有标签在 [0, ..., config.vocab_size] 范围内的标记。

  • kwargs (Dict[str, any], optional, 默认为 {}) — 用于隐藏已被弃用的旧参数。

返回

transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFMaskedLMOutput 或一个 tf.Tensor 元组(如果传递 return_dict=False 或者 config.return_dict=False 时)包含各种元素,取决于配置(EsmConfig)和输入。

  • loss (tf.Tensor of shape (n,), optional, 其中 n 是非掩码标签的数量,在提供 labels 时返回) — 掩码语言建模(MLM)损失。

  • logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头部的预测分数(SoftMax 之前每个词汇标记的分数)。

  • hidden_states (tuple(tf.Tensor), optional, 当传递 output_hidden_states=True 或者 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)tf.Tensor 元组(一个用于嵌入的输出 + 一个用于每层的输出)。

    每层模型的隐藏状态加上初始嵌入输出。

  • attentions (tuple(tf.Tensor), optional, 当传递 output_attentions=True 或者 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)tf.Tensor 元组(每层一个)。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头部中的加权平均值。

TFEsmForMaskedLM 的前向方法,覆盖了 __call__ 特殊方法。

虽然前向传播的步骤需要在此函数内定义,但应该在此之后调用 Module 实例,而不是在此处调用,因为前者负责运行前处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFEsmForMaskedLM
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = TFEsmForMaskedLM.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer("The capital of France is <mask>.", return_tensors="tf")
>>> logits = model(**inputs).logits

>>> # retrieve index of <mask>
>>> mask_token_index = tf.where((inputs.input_ids == tokenizer.mask_token_id)[0])
>>> selected_logits = tf.gather_nd(logits[0], indices=mask_token_index)

>>> predicted_token_id = tf.math.argmax(selected_logits, axis=-1)
>>> labels = tokenizer("The capital of France is Paris.", return_tensors="tf")["input_ids"]
>>> # mask labels of non-<mask> tokens
>>> labels = tf.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)

>>> outputs = model(**inputs, labels=labels)

TFEsmForSequenceClassification

class transformers.TFEsmForSequenceClassification

<来源>

( config )

参数

  • config(EsmConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

ESM 模型变压器,顶部带有序列分类/回归头(顶部的线性层在汇总输出之上),例如用于 GLUE 任务。

此模型继承自 TFPreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

此模型还是 Keras Model子类。将其用作常规 Keras 模型,并参考 TF/Keras 文档以获取有关一般用法和行为的所有事项。

call

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None labels: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFSequenceClassifierOutput or tuple(tf.Tensor)

参数

  • input_ids(形状为(batch_size, sequence_length)tf.Tensor)— 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)tf.Tensor可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:

    • 对于未屏蔽的标记为 1,

    • 0 表示标记为屏蔽

    什么是注意力掩码?

  • position_ids(形状为(batch_size, sequence_length)tf.Tensor可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • head_mask(形状为(num_heads,)(num_layers, num_heads)tf.Tensor可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]之间:

    • 1 表示头部未被屏蔽

    • 0 表示头部被屏蔽

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)tf.Tensor可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为关联向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states

  • return_dictbool可选)— 是否返回一个 ModelOutput 而不是一个普通的元组。

  • labels (tf.Tensor的形状为(batch_size,)可选) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。

返回

transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或一个tf.Tensor元组(如果传递return_dict=Falseconfig.return_dict=False)包含根据配置(EsmConfig)和输入的各种元素。

  • loss (tf.Tensor的形状为(batch_size, )可选,在提供labels时返回) — 分类(如果 config.num_labels==1 则为回归)损失。

  • logits (tf.Tensor的形状为(batch_size, config.num_labels)) — 分类(如果 config.num_labels==1 则为回归)分数(SoftMax 之前)。

  • hidden_states (tuple(tf.Tensor)可选,在传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入输出,一个用于每一层的输出)。

    模型在每一层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(tf.Tensor)可选,在传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每层一个)。

    在自注意力头中使用注意力 softmax 后的注意力权重,用于计算加权平均值。

TFEsmForSequenceClassification 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在这个函数内定义,但应该在之后调用Module实例,而不是这个,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFEsmForSequenceClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = TFEsmForSequenceClassification.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")

>>> logits = model(**inputs).logits

>>> predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = TFEsmForSequenceClassification.from_pretrained("facebook/esm2_t6_8M_UR50D", num_labels=num_labels)

>>> labels = tf.constant(1)
>>> loss = model(**inputs, labels=labels).loss

TFEsmForTokenClassification

class transformers.TFEsmForTokenClassification

<来源>

( config )

参数

  • config (EsmConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

ESM 模型在顶部带有一个标记分类头(隐藏状态输出的线性层),例如用于命名实体识别(NER)任务。

这个模型继承自 TFPreTrainedModel。查看超类文档,了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

这个模型也是一个 Keras Model子类。将其用作常规的 Keras 模型,并参考 TF/Keras 文档以获取所有与一般用法和行为相关的事项。

call

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None labels: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFTokenClassifierOutput or tuple(tf.Tensor)

参数

  • input_ids (tf.Tensor of shape (batch_size, sequence_length)) — 输入序列标记在词汇表中的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (tf.Tensor of shape (batch_size, sequence_length), optional) — 避免在填充标记索引上执行注意力的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示未被掩码的标记,

    • 0 表示被掩码的标记。

    什么是注意力掩码?

  • position_ids (tf.Tensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是位置 ID?

  • head_mask (tf.Tensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示头部未被掩码

    • 0 表示头部被掩码

  • inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您想要更多控制权来将 input_ids 索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量下的 attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回的张量下的 hidden_states

  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。

  • labels (tf.Tensor of shape (batch_size, sequence_length), optional) — 用于计算标记分类损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。

返回

transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFTokenClassifierOutput 或一个 tf.Tensor 元组(如果传递了 return_dict=Falseconfig.return_dict=False)包含各种元素,这取决于配置(EsmConfig)和输入。

  • loss (tf.Tensor of shape (n,), optional, 当提供 labels 时返回,其中 n 是未被掩码的标签数) — 分类损失。

  • logits (tf.Tensor of shape (batch_size, sequence_length, config.num_labels)) — 分类分数(SoftMax 之前)。

  • hidden_states (tuple(tf.Tensor), optional, 当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)tf.Tensor 元组(一个用于嵌入的输出 + 一个用于每一层的输出)。

    模型在每一层输出的隐藏状态以及初始嵌入输出。

  • attentions (tuple(tf.Tensor), 可选的, 当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)tf.Tensor 元组(每层一个)。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

TFEsmForTokenClassification 的前向方法,覆盖了 __call__ 特殊方法。

虽然前向传递的步骤需要在这个函数中定义,但应该在此之后调用 Module 实例,而不是这个函数,因为前者会处理运行前后的处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFEsmForTokenClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
>>> model = TFEsmForTokenClassification.from_pretrained("facebook/esm2_t6_8M_UR50D")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="tf"
... )

>>> logits = model(**inputs).logits
>>> predicted_token_class_ids = tf.math.argmax(logits, axis=-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t] for t in predicted_token_class_ids[0].numpy().tolist()]
>>> labels = predicted_token_class_ids
>>> loss = tf.math.reduce_mean(model(**inputs, labels=labels).loss)

Falcon

原文:huggingface.co/docs/transformers/v4.37.2/en/model_doc/falcon

概述

Falcon 是由 TII 构建的一类仅因果解码器模型。最大的 Falcon 检查点已经在 >=1T 个文本标记上进行了训练,特别强调了 RefinedWeb 语料库。它们在 Apache 2.0 许可下提供。

Falcon 的架构现代化且优化用于推断,具有多查询注意力和支持 FlashAttention 等高效注意力变体。既有仅作为因果语言模型训练的“基础”模型,也有接受进一步微调的“指导”模型可用。

Falcon 模型(截至 2023 年)是一些最大且最强大的开源语言模型,在 OpenLLM 排行榜 中始终排名靠前。

转换自定义检查点

Falcon 模型最初作为自定义代码检查点添加到 Hugging Face Hub。但是,现在 Falcon 在 Transformers 库中得到了全面支持。如果您从自定义代码检查点微调了模型,我们建议将您的检查点转换为新的库格式,这应该显著提高稳定性和性能,特别是对于生成,同时消除了使用 trust_remote_code=True 的需要!

您可以使用位于 Transformers 库的 Falcon 模型目录 中的 convert_custom_code_checkpoint.py 脚本将自定义代码检查点转换为完整的 Transformers 检查点。要使用此脚本,只需调用 python convert_custom_code_checkpoint.py --checkpoint_dir my_model。这将原地转换您的检查点,然后您可以立即从目录中加载它,例如 from_pretrained()。如果您的模型尚未上传到 Hub,我们建议在尝试转换之前进行备份,以防万一!

FalconConfig

class transformers.FalconConfig

< source >

( vocab_size = 65024 hidden_size = 4544 num_hidden_layers = 32 num_attention_heads = 71 layer_norm_epsilon = 1e-05 initializer_range = 0.02 use_cache = True hidden_dropout = 0.0 attention_dropout = 0.0 num_kv_heads = None alibi = False new_decoder_architecture = False multi_query = True parallel_attn = True bias = False max_position_embeddings = 2048 rope_theta = 10000.0 rope_scaling = None bos_token_id = 11 eos_token_id = 11 **kwargs )

参数

  • vocab_size (int, optional, defaults to 65024) — Falcon 模型的词汇量大小。定义了在调用 FalconModel 时可以表示的不同 token 数量。

  • hidden_size (int, optional, defaults to 4544) — 隐藏表示的维度。

  • num_hidden_layers (int, optional, defaults to 32) — Transformer 解码器中的隐藏层数量。

  • num_attention_heads (int, optional, defaults to 71) — Transformer 编码器中每个注意力层的注意力头数量。

  • layer_norm_epsilon (float, optional, defaults to 1e-05) — 层归一化层使用的 epsilon。

  • initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。

  • use_cache (bool, optional, defaults to True) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。仅在 config.is_decoder=True 时相关。

  • hidden_dropout (float, optional, defaults to 0.0) — MLP 层的 dropout 概率。

  • attention_dropout (float, optional, defaults to 0.0) — 注意力层的 dropout 概率。

  • num_kv_heads (int, optional) — 每个注意力层使用的键值头的数量。如果未设置,默认为与 num_attention_heads 相同的值。

  • alibi (bool, optional, defaults to False) — 是否在自注意力期间使用 ALiBi 位置偏差。

  • new_decoder_architecture (bool, optional, defaults to False) — 是否使用新的(Falcon-40B)解码器架构。如果为True,则multi_queryparallel_attn参数将被忽略,因为新的解码器总是使用并行注意力。

  • multi_query (bool, optional, defaults to True) — 是否在解码器中使用多查询注意力。当new_decoder_architectureTrue时忽略。

  • parallel_attn (bool, optional, defaults to True) — 是否在前馈层中并行计算注意力。如果为 False,则它们是连续的,就像原始 Transformer 架构中一样。当new_decoder_architectureTrue时忽略。

  • bias (bool, optional, defaults to False) — 是否在线性层上使用偏置。

  • max_position_embeddings (int, optional, defaults to 2048) — 当alibiFalse时,此模型可能使用的最大序列长度。支持 RoPE 的预训练 Falcon 模型最多支持 2048 个标记。

  • rope_theta (float, optional, defaults to 10000.0) — RoPE 嵌入的基本周期。

  • rope_scaling (Dict, optional) — 包含 RoPE 嵌入的缩放配置的字典。目前支持两种缩放策略:线性和动态。它们的缩放因子必须是大于 1 的浮点数。期望的格式是{"type": 策略名称, "factor": 缩放因子}。当使用此标志时,不要更新max_position_embeddings到预期的新最大值。查看以下主题以了解这些缩放策略的行为更多信息:www.reddit.com/r/LocalLLaMA/comments/14mrgpr/dynamically_scaled_rope_further_increases/。这是一个实验性功能,可能在未来版本中发生破坏性 API 更改。

  • bos_token_id (int, optional, defaults to 11) — “序列开始”标记的 id。

  • eos_token_id (int, optional, defaults to 11) — “序列结束”标记的 id。

这是一个配置类,用于存储 FalconModel 的配置。根据指定的参数实例化 Falcon 模型,定义模型架构。使用默认值实例化配置将产生类似于tiiuae/falcon-7b架构的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例:

>>> from transformers import FalconModel, FalconConfig

>>> # Initializing a small (2-layer) Falcon configuration
>>> configuration = FalconConfig(num_hidden_layers=2)

>>> # Initializing a model from the small configuration
>>> model = FalconModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

FalconModel

class transformers.FalconModel

<来源>

( config: FalconConfig )

参数

  • config (FalconConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

裸的 Falcon 模型变压器输出原始隐藏状态,没有特定的头部。

这个模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入等)。

此模型还是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, input_ids_length)) — input_ids_length = sequence_length,如果past_key_valuesNone,否则past_key_values[0][0].shape[2](输入过去键值状态的序列长度)。词汇表中输入序列标记的索引。

    如果使用了past_key_values,则应该只传递那些没有计算过去的input_ids作为input_ids

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • past_key_values (Tuple[Tuple[torch.Tensor]] of length config.num_hidden_layers) — 包含由模型计算的预计算隐藏状态(注意力块中的键和值)(请参见下面的past_key_values输出)。可用于加速顺序解码。已经计算的input_ids的过去不应该作为input_ids传递,因为它们已经被计算。

    past_key_values的每个元素都是一个元组(past_key, past_value):

    • past_key: [batch_size * num_heads, head_dim, kv_length]

    • past_value: [batch_size * num_heads, kv_length, head_dim]

  • attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:

    • 1 表示标记是未掩盖的,

    • 0 表示被掩盖的标记。

    什么是注意力掩码?

  • position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]

    什么是位置 ID?

  • head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中的特定头部失效的掩码。掩码值选择在[0, 1]之间:

    • 1 表示头部是未掩盖的,

    • 0 表示头部是掩盖的

  • inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

    如果使用了past_key_values,则可以选择仅输入最后的inputs_embeds(参见past_key_values)。

  • use_cache (bool, optional) — 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请查看返回张量中的attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请查看返回张量中的hidden_states

  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或torch.FloatTensor元组。

一个 transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions 或一个torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False)包含根据配置(FalconConfig)和输入不同的元素。

  • last_hidden_state (torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。

    如果使用past_key_values,则仅输出形状为(batch_size, 1, hidden_size)的序列的最后隐藏状态。

  • past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=Trueconfig.use_cache=True时返回) — 长度为config.n_layerstuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量,如果config.is_encoder_decoder=True还有 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。

    包含预先计算的隐藏状态(自注意力块中的键和值,以及如果config.is_encoder_decoder=True则在交叉注意力块中)可用于加速顺序解码。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入输出的一个和每层输出的一个)。

    模型每一层的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在自注意力头中用于计算加权平均值的注意力 softmax 之后的注意力权重。

  • cross_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=Trueconfig.add_cross_attention=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在解码器的交叉注意力层中的注意力 softmax 之后的注意力权重,用于计算交叉注意力头中的加权平均值。

FalconModel 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会处理运行前后的处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, FalconModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("Rocketknight1/falcon-rw-1b")
>>> model = FalconModel.from_pretrained("Rocketknight1/falcon-rw-1b")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

FalconForCausalLM

class transformers.FalconForCausalLM

< source >

( config: FalconConfig )

参数

  • config(FalconConfig)— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

Falcon 模型变压器在顶部带有语言建模头(线性层,其权重与输入嵌入绑定)。

该模型继承自 PreTrainedModel。查看超类文档,了解库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入等)。

该模型还是一个 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithCrossAttentions or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, input_ids_length)torch.LongTensor)— input_ids_length = sequence_length,如果past_key_valuesNone,否则为past_key_values[0][0].shape[2](输入过去键值状态的序列长度)。词汇表中输入序列标记的索引。

    如果使用past_key_values,则只应将未计算其过去的input_ids作为input_ids传递。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • past_key_values(长度为config.num_hidden_layersTuple[Tuple[torch.Tensor]])— 包含由模型计算的预计算隐藏状态(注意力块中的键和值,参见下面的past_key_values输出)。可用于加速顺序解码。将其过去给定给该模型的input_ids不应作为input_ids传递,因为它们已经计算过。

    past_key_values的每个元素都是一个元组(past_key,past_value):

    • past_key: [batch_size * num_heads, head_dim, kv_length]

    • past_value: [batch_size * num_heads, kv_length, head_dim]

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选)— 用于避免在填充令牌索引上执行注意力的掩码。选择的掩码值在[0, 1]范围内:

    • 1 表示未被masked的标记,

    • 对于被masked的标记为 0。

    什么是注意力掩码?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]

    什么是位置 ID?

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)— 用于使自注意力模块的选定头部失效的掩码。选择的掩码值在[0, 1]范围内:

    • 1 表示头部未被masked

    • 0 表示头部被masked

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

    如果使用了past_key_values,则可能只需输入最后的inputs_embeds(参见past_key_values)。

  • use_cache (bool, optional) — 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。

  • labels (torch.LongTensor,形状为(batch_size, sequence_length)optional) — 用于语言建模的标签。请注意,模型内部的标签已经移位,即您可以设置labels = input_ids。索引在[-100, 0, ..., config.vocab_size]中选择。所有设置为-100的标签都将被忽略(掩码),损失仅计算标签在[0, ..., config.vocab_size]中的标签。

返回

transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或torch.FloatTensor元组

一个 transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或一个torch.FloatTensor元组(如果传递了return_dict=Falseconfig.return_dict=False)包括根据配置(FalconConfig)和输入的各种元素。

  • loss (torch.FloatTensor,形状为(1,), optional, 当提供labels时返回) — 语言建模损失(用于下一个标记预测)。

  • logits (torch.FloatTensor,形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入输出的一个+每个层的输出的一个)。

    每个层输出的模型的隐藏状态加上可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=Trueconfig.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每个层一个)。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

  • cross_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=Trueconfig.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每个层一个)。

    在注意力 softmax 之后的交叉注意力权重,用于计算交叉注意力头中的加权平均值。

  • past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=Trueconfig.use_cache=True时返回)— 长度为config.n_layerstorch.FloatTensor元组,每个元组包含自注意力和交叉注意力层的缓存键、值状态,如果模型用于编码器-解码器设置,则相关。仅在config.is_decoder = True时相关。

    包含可以用于加速顺序解码的预计算隐藏状态(注意力块中的键和值)。

FalconForCausalLM 的前向方法覆盖了__call__特殊方法。

虽然前向传递的步骤需要在这个函数内定义,但应该在此之后调用Module实例,而不是这个函数,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> import torch
>>> from transformers import AutoTokenizer, FalconForCausalLM

>>> tokenizer = AutoTokenizer.from_pretrained("Rocketknight1/falcon-rw-1b")
>>> model = FalconForCausalLM.from_pretrained("Rocketknight1/falcon-rw-1b")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs, labels=inputs["input_ids"])
>>> loss = outputs.loss
>>> logits = outputs.logits

FalconForSequenceClassification

class transformers.FalconForSequenceClassification

< source >

( config: FalconConfig )

参数

  • config(FalconConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

Falcon 模型变压器顶部带有序列分类头(线性层)。

FalconForSequenceClassification 使用最后一个标记来进行分类,就像其他因果模型(例如 GPT-1)一样。

由于它对最后一个标记进行分类,因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id,则它会找到每行中不是填充标记的最后一个标记。如果没有定义pad_token_id,则它会简单地取每行批次中的最后一个值。由于在传递inputs_embeds而不是input_ids时无法猜测填充标记,因此它会执行相同的操作(取每行批次中的最后一个值)。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入等)。

此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

< source >

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutputWithPast or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, input_ids_length)torch.LongTensor)— 如果past_key_valuesNone,则input_ids_length = sequence_length,否则为past_key_values[0][0].shape[2](输入过去键值状态的序列长度)。词汇表中输入序列标记的索引。

    如果使用了past_key_values,则只应将尚未计算其过去的input_ids作为input_ids传递。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • past_key_values(长度为config.num_hidden_layersTuple[Tuple[torch.Tensor]])— 包含由模型计算的预计算隐藏状态(注意块中的键和值),如下面的past_key_values输出所示。可用于加速顺序解码。已经计算过其过去的input_ids不应作为input_ids传递给此模型,因为它们已经被计算过。

    past_key_values的每个元素都是一个元组(past_key, past_value):

    • past_key: [batch_size * num_heads, head_dim, kv_length]

    • past_value: [batch_size * num_heads, kv_length, head_dim]

  • attention_mask (torch.FloatTensor,形状为(batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]范围内:

    • 1 表示标记是未被掩盖

    • 0 表示被掩盖的标记。

    什么是注意力掩码?

  • position_ids (torch.LongTensor,形状为(batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]

    什么是位置 ID?

  • head_mask (torch.FloatTensor,形状为(num_heads,)(num_layers, num_heads)可选) — 用于使自注意力模块的选定头部失效的掩码。掩码值选择在[0, 1]范围内:

    • 1 表示头部是未被掩盖

    • 0 表示头部是被掩盖

  • inputs_embeds (torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

    如果使用了past_key_values,则只需输入最后的inputs_embeds(参见past_key_values)。

  • use_cache (bool可选) — 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。

  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions

  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states

  • return_dict (bool可选) — 是否返回一个 ModelOutput 而不是一个普通元组。

  • labels (torch.LongTensor,形状为(batch_size,)可选) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。

返回

transformers.modeling_outputs.SequenceClassifierOutputWithPasttuple(torch.FloatTensor)

一个transformers.modeling_outputs.SequenceClassifierOutputWithPast或一个torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False)包含根据配置(FalconConfig)和输入的不同元素。

  • 损失 (torch.FloatTensor,形状为(1,)可选,在提供labels时返回) — 分类(如果config.num_labels==1则为回归)损失。

  • logits (torch.FloatTensor,形状为(batch_size, config.num_labels)) — 分类(如果config.num_labels==1则为回归)得分(SoftMax 之前)。

  • past_key_values (tuple(tuple(torch.FloatTensor))可选,当传递use_cache=Trueconfig.use_cache=True时返回) — 长度为config.n_layerstuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量)

    包含预先计算的隐藏状态(自注意力块中的键和值),可用于加速顺序解码(参见past_key_values输入)。

  • hidden_states (tuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型具有嵌入层,则为嵌入的输出 + 每个层的输出)。

    模型在每一层输出的隐藏状态以及可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

FalconForSequenceClassification 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在这个函数内定义,但应该在此之后调用Module实例,而不是在此之后调用,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。

单标签分类的示例:

>>> import torch
>>> from transformers import AutoTokenizer, FalconForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Rocketknight1/falcon-rw-1b")
>>> model = FalconForSequenceClassification.from_pretrained("Rocketknight1/falcon-rw-1b")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = FalconForSequenceClassification.from_pretrained("Rocketknight1/falcon-rw-1b", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类的示例:

>>> import torch
>>> from transformers import AutoTokenizer, FalconForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("Rocketknight1/falcon-rw-1b")
>>> model = FalconForSequenceClassification.from_pretrained("Rocketknight1/falcon-rw-1b", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = FalconForSequenceClassification.from_pretrained(
...     "Rocketknight1/falcon-rw-1b", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

FalconForTokenClassification

class transformers.FalconForTokenClassification

<来源>

( config: FalconConfig )

参数

  • config(FalconConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

Falcon 模型在顶部带有一个标记分类头(隐藏状态输出的线性层),例如用于命名实体识别(NER)任务。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入等)。

此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None past_key_values: Optional = None attention_mask: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, input_ids_length)torch.LongTensor)- 如果past_key_valuesNone,则input_ids_length=sequence_length,否则input_ids_length=past_key_values[0][0].shape[2](输入过去键值状态的序列长度)。词汇表中输入序列标记的索引。

    如果使用past_key_values,则只应将未计算其过去的input_ids作为input_ids传递。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • past_key_values(长度为config.num_hidden_layersTuple[Tuple[torch.Tensor]])- 包含由模型计算的预计算隐藏状态(注意力块中的键和值),可以用于加速顺序解码。将其过去给定给此模型的input_ids不应作为input_ids传递,因为它们已经被计算过。

    past_key_values的每个元素都是一个元组(past_key,past_value):

    • past_key: [batch_size * num_heads, head_dim, kv_length]

    • past_value: [batch_size * num_heads, kv_length, head_dim]

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值在[0, 1]中选择:

    • 1 表示未被掩码的标记,

    • 0 表示被掩码的标记。

    什么是注意力掩码?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.n_positions - 1]中选择。

    什么是位置 ID?

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值在[0, 1]中选择:

    • 1 表示未被掩码的标记,

    • 0 表示头部被掩码

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这很有用。

    如果使用past_key_values,则可能只需输入最后的inputs_embeds(参见past_key_values)。

  • use_cachebool可选)— 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dictbool可选)— 是否返回一个 ModelOutput 而不是一个普通元组。

  • labels(形状为(batch_size,)torch.LongTensor可选)— 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]中。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。

返回

transformers.modeling_outputs.TokenClassifierOutput 或者tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或者一个torch.FloatTensor元组(如果传递了return_dict=False或者当config.return_dict=False时)包括根据配置(FalconConfig)和输入的不同元素。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)— 分类损失。

  • logits(形状为(batch_size, sequence_length, config.num_labels)torch.FloatTensor)— 分类分数(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=True或者当config.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入输出的形状+每层的输出形状)。

    模型在每一层输出的隐藏状态以及可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=True或者当config.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

FalconForTokenClassification 的前向方法,覆盖了__call__特殊方法。

尽管前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, FalconForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("Rocketknight1/falcon-rw-1b")
>>> model = FalconForTokenClassification.from_pretrained("Rocketknight1/falcon-rw-1b")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss

FalconForQuestionAnswering

class transformers.FalconForQuestionAnswering

<来源>

( config )

参数

  • config (FalconConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

Falcon 模型变压器,顶部带有用于提取问答任务的跨度分类头,如 SQuAD(在隐藏状态输出顶部的线性层,用于计算span start logitsspan end logits)。

这个模型继承自 PreTrainedModel。查看超类文档以了解库实现的通用方法(如下载或保存,调整输入嵌入等)。

这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None )

参数

  • input_ids(形状为(batch_size, input_ids_length)torch.LongTensor) — input_ids_length = sequence_length(如果past_key_valuesNone)否则past_key_values[0][0].shape[2](输入过去键值状态的序列长度)。词汇表中输入序列标记的索引。

    如果使用了past_key_values,则只应将未计算其过去的input_ids作为input_ids传递。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • past_key_values(长度为config.num_hidden_layersTuple[Tuple[torch.Tensor]]) — 包含由模型计算的预计算隐藏状态(注意力块中的键和值,如下面的past_key_values输出所示)。可用于加速顺序解码。将其过去给定给此模型的input_ids不应作为input_ids传递,因为它们已经计算过。

    past_key_values的每个元素都是一个元组(past_key,past_value):

    • past_key: [batch_size * num_heads, head_dim, kv_length]

    • past_value: [batch_size * num_heads, kv_length, head_dim]

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选) — 用于避免在填充标记索引上执行注意力的掩码。选择在[0, 1]中的掩码值:

    • 对于未被masked的标记为 1 的标记,

    • 对于被masked的标记为 0。

    什么是注意力掩码?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.n_positions - 1]中选择。

    什么是位置 ID?

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值选定在[0, 1]之间:

    • 1 表示头部未被遮罩,

    • 0 表示头部被遮罩。

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,您可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

    如果使用past_key_values,可选地只需输入最后的inputs_embeds(参见past_key_values)。

  • use_cachebool可选)— 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dictbool可选)— 是否返回一个 ModelOutput 而不是一个普通元组。

  • start_positions(形状为(batch_size,)torch.LongTensor可选)— 用于计算标记范围起始位置的位置(索引)的标签,以计算标记分类损失。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。

  • end_positions(形状为(batch_size,)torch.LongTensor可选)— 用于计算标记范围结束位置的位置(索引)的标签,以计算标记分类损失。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。

FalconForQuestionAnswering 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。

FastSpeech2Conformer

原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/fastspeech2_conformer

概述

FastSpeech2Conformer 模型是由 Pengcheng Guo、Florian Boyer、Xuankai Chang、Tomoki Hayashi、Yosuke Higuchi、Hirofumi Inaguma、Naoyuki Kamo、Chenda Li、Daniel Garcia-Romero、Jiatong Shi、Jing Shi、Shinji Watanabe、Kun Wei、Wangyou Zhang 和 Yuekai Zhang 在论文 Recent Developments On Espnet Toolkit Boosted By Conformer 中提出的。

原始 FastSpeech2 论文的摘要如下:

非自回归文本到语音(TTS)模型,如 FastSpeech(Ren 等,2019),可以比以前的具有可比质量的自回归模型更快地合成语音。FastSpeech 模型的训练依赖于自回归教师模型进行持续时间预测(提供更多信息作为输入)和知识蒸馏(简化输出中的数据分布),这可以缓解 TTS 中的一对多映射问题(即,多种语音变体对应相同的文本)。然而,FastSpeech 有几个缺点:1)教师-学生蒸馏流程复杂且耗时,2)从教师模型提取的持续时间不够准确,从教师模型蒸馏的目标 mel-频谱图由于数据简化而遭受信息丢失,这两者限制了语音质量。在本文中,我们提出了 FastSpeech 2,它解决了 FastSpeech 中的问题,并通过以下方式更好地解决了 TTS 中的一对多映射问题:1)直接使用地面真实目标训练模型,而不是来自教师的简化输出,2)引入更多语音变体信息(例如,音高、能量和更准确的持续时间)作为条件输入。具体来说,我们从语音波形中提取持续时间、音高和能量,并直接将它们作为条件输入进行训练,并在推断中使用预测值。我们进一步设计了 FastSpeech 2s,这是第一次尝试从文本中并行直接生成语音波形,享受完全端到端推断的好处。实验结果表明:1)FastSpeech 2 比 FastSpeech 实现了 3 倍的训练加速,FastSpeech 2s 甚至享有更快的推断速度;2)FastSpeech 2 和 2s 在语音质量上优于 FastSpeech,FastSpeech 2 甚至可以超越自回归模型。音频样本可在 speechresearch.github.io/fastspeech2/ 上找到。

此模型由 Connor Henderson 贡献。原始代码可以在 这里 找到。

🤗 模型架构

FastSpeech2 的一般结构与 Mel 频谱图解码器一起实现,并且传统的 transformer blocks 被 ESPnet 库中的 conformer blocks 替换。

FastSpeech2 模型架构

FastSpeech2 模型架构

Conformer Blocks

Conformer Blocks

卷积模块

卷积模块

🤗 Transformers 使用

您可以在 🤗 Transformers 库中本地运行 FastSpeech2Conformer。

  1. 首先安装 🤗 Transformers 库,g2p-en:
pip install --upgrade pip
pip install --upgrade transformers g2p-en
  1. 通过 Transformers 建模代码分别运行推断,使用模型和 hifigan

from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerModel, FastSpeech2ConformerHifiGan
import soundfile as sf

tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]

model = FastSpeech2ConformerModel.from_pretrained("espnet/fastspeech2_conformer")
output_dict = model(input_ids, return_dict=True)
spectrogram = output_dict["spectrogram"]

hifigan = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
waveform = hifigan(spectrogram)

sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
  1. 通过 Transformers 建模代码结合模型和 hifigan 运行推断
from transformers import FastSpeech2ConformerTokenizer, FastSpeech2ConformerWithHifiGan
import soundfile as sf

tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
inputs = tokenizer("Hello, my dog is cute.", return_tensors="pt")
input_ids = inputs["input_ids"]

model = FastSpeech2ConformerWithHifiGan.from_pretrained("espnet/fastspeech2_conformer_with_hifigan")
output_dict = model(input_ids, return_dict=True)
waveform = output_dict["waveform"]

sf.write("speech.wav", waveform.squeeze().detach().numpy(), samplerate=22050)
  1. 使用管道运行推断,并指定要使用的声码器
from transformers import pipeline, FastSpeech2ConformerHifiGan
import soundfile as sf

vocoder = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
synthesiser = pipeline(model="espnet/fastspeech2_conformer", vocoder=vocoder)

speech = synthesiser("Hello, my dog is cooler than you!")

sf.write("speech.wav", speech["audio"].squeeze(), samplerate=speech["sampling_rate"])

FastSpeech2ConformerConfig

class transformers.FastSpeech2ConformerConfig

<来源>

( hidden_size = 384 vocab_size = 78 num_mel_bins = 80 encoder_num_attention_heads = 2 encoder_layers = 4 encoder_linear_units = 1536 decoder_layers = 4 decoder_num_attention_heads = 2 decoder_linear_units = 1536 speech_decoder_postnet_layers = 5 speech_decoder_postnet_units = 256 speech_decoder_postnet_kernel = 5 positionwise_conv_kernel_size = 3 encoder_normalize_before = False decoder_normalize_before = False encoder_concat_after = False decoder_concat_after = False reduction_factor = 1 speaking_speed = 1.0 use_macaron_style_in_conformer = True use_cnn_in_conformer = True encoder_kernel_size = 7 decoder_kernel_size = 31 duration_predictor_layers = 2 duration_predictor_channels = 256 duration_predictor_kernel_size = 3 energy_predictor_layers = 2 energy_predictor_channels = 256 energy_predictor_kernel_size = 3 energy_predictor_dropout = 0.5 energy_embed_kernel_size = 1 energy_embed_dropout = 0.0 stop_gradient_from_energy_predictor = False pitch_predictor_layers = 5 pitch_predictor_channels = 256 pitch_predictor_kernel_size = 5 pitch_predictor_dropout = 0.5 pitch_embed_kernel_size = 1 pitch_embed_dropout = 0.0 stop_gradient_from_pitch_predictor = True encoder_dropout_rate = 0.2 encoder_positional_dropout_rate = 0.2 encoder_attention_dropout_rate = 0.2 decoder_dropout_rate = 0.2 decoder_positional_dropout_rate = 0.2 decoder_attention_dropout_rate = 0.2 duration_predictor_dropout_rate = 0.2 speech_decoder_postnet_dropout = 0.5 max_source_positions = 5000 use_masking = True use_weighted_masking = False num_speakers = None num_languages = None speaker_embed_dim = None is_encoder_decoder = True **kwargs )

参数

  • hidden_size (int, optional, defaults to 384) — 隐藏层的维度。

  • vocab_size (int, optional, defaults to 78) — 词汇表的大小。

  • num_mel_bins (int, optional, defaults to 80) — 滤波器组中使用的 mel 滤波器数量。

  • encoder_num_attention_heads (int, optional, defaults to 2) — 编码器中的注意力头数。

  • encoder_layers (int, optional, defaults to 4) — 编码器中的层数。

  • encoder_linear_units (int, optional, defaults to 1536) — 编码器中线性层的单元数。

  • decoder_layers (int, optional, defaults to 4) — 解码器中的层数。

  • decoder_num_attention_heads (int, optional, defaults to 2) — 解码器中的注意力头数。

  • decoder_linear_units (int, optional, defaults to 1536) — 解码器中线性层的单元数。

  • speech_decoder_postnet_layers (int, optional, defaults to 5) — 语音解码器后处理网络中的层数。

  • speech_decoder_postnet_units (int, optional, defaults to 256) — 语音解码器后处理网络中的单元数。

  • speech_decoder_postnet_kernel (int, optional, defaults to 5) — 语音解码器后处理网络中的卷积核大小。

  • positionwise_conv_kernel_size (int, optional, defaults to 3) — 位置感知层中使用的卷积核大小。

  • encoder_normalize_before (bool, optional, defaults to False) — 指定是否在编码器层之前进行归一化。

  • decoder_normalize_before (bool, optional, defaults to False) — 指定是否在解码器层之前进行归一化。

  • encoder_concat_after (bool, optional, defaults to False) — 指定是否在编码器层之后进行连接。

  • decoder_concat_after (bool, optional, defaults to False) — 指定是否在解码器层之后进行连接。

  • reduction_factor (int, optional, defaults to 1) — 语音帧速率减少的因子。

  • speaking_speed (float, optional, defaults to 1.0) — 生成语音的速度。

  • use_macaron_style_in_conformer (bool, optional, defaults to True) — 指定是否在 conformer 中使用 macaron 风格。

  • use_cnn_in_conformer (bool, optional, defaults to True) — 指定是否在 conformer 中使用卷积神经网络。

  • encoder_kernel_size (int, optional, defaults to 7) — 编码器中使用的卷积核大小。

  • decoder_kernel_size (int, optional, defaults to 31) — 解码器中使用的卷积核大小。

  • duration_predictor_layers (int, optional, defaults to 2) — 预测器中的层数。

  • duration_predictor_channels (int, optional, defaults to 256) — 预测器中通道的数量。

  • duration_predictor_kernel_size (int, optional, defaults to 3) — 预测器中使用的卷积核大小。

  • energy_predictor_layers (int, optional, defaults to 2) — 能量预测器中的层数。

  • energy_predictor_channels (int, optional, defaults to 256) — 能量预测器中的通道数。

  • energy_predictor_kernel_size (int, optional, defaults to 3) — 能量预测器中使用的卷积核大小。

  • energy_predictor_dropout (float, optional, defaults to 0.5) — 能量预测器中的 dropout 率。

  • energy_embed_kernel_size (int, optional, defaults to 1) — 能量嵌入层中使用的卷积核大小。

  • energy_embed_dropout (float, optional, defaults to 0.0) — 能量嵌入层中的 dropout 率。

  • stop_gradient_from_energy_predictor (bool, optional, defaults to False) — 指定是否从能量预测器中停止梯度。

  • pitch_predictor_layers (int, optional, defaults to 5) — 音高预测器中的层数。

  • pitch_predictor_channels (int, optional, defaults to 256) — 音高预测器中的通道数。

  • pitch_predictor_kernel_size (int, optional, defaults to 5) — 音高预测器中使用的内核大小。

  • pitch_predictor_dropout (float, optional, defaults to 0.5) — 音高预测器中的 dropout 率。

  • pitch_embed_kernel_size (int, optional, defaults to 1) — 音高嵌入层中使用的内核大小。

  • pitch_embed_dropout (float, optional, defaults to 0.0) — 音高嵌入层中的 dropout 率。

  • stop_gradient_from_pitch_predictor (bool, optional, defaults to True) — 指定是否停止来自音高预测器的梯度。

  • encoder_dropout_rate (float, optional, defaults to 0.2) — 编码器中的 dropout 率。

  • encoder_positional_dropout_rate (float, optional, defaults to 0.2) — 编码器中的位置 dropout 率。

  • encoder_attention_dropout_rate (float, optional, defaults to 0.2) — 编码器中的注意力 dropout 率。

  • decoder_dropout_rate (float, optional, defaults to 0.2) — 解码器中的 dropout 率。

  • decoder_positional_dropout_rate (float, optional, defaults to 0.2) — 解码器中的位置 dropout 率。

  • decoder_attention_dropout_rate (float, optional, defaults to 0.2) — 解码器中的注意力 dropout 率。

  • duration_predictor_dropout_rate (float, optional, defaults to 0.2) — 持续时间预测器中的 dropout 率。

  • speech_decoder_postnet_dropout (float, optional, defaults to 0.5) — 语音解码器后置网络中的 dropout 率。

  • max_source_positions (int, optional, defaults to 5000) — 如果使用“相对”位置嵌入,则定义最大源输入位置。

  • use_masking (bool, optional, defaults to True) — 指定模型是否使用掩码。

  • use_weighted_masking (bool, optional, defaults to False) — 指定模型是否使用加权掩码。

  • num_speakers (int, optional) — 说话者数量。如果设置为 > 1,则假定说话者 id 将作为输入提供,并使用说话者 id 嵌入层。

  • num_languages (int, optional) — 语言数量。如果设置为 > 1,则假定语言 id 将作为输入提供,并使用语言 id 嵌入层。

  • speaker_embed_dim (int, optional) — 说话者嵌入维度。如果设置为 > 0,则假定将提供说话者嵌入作为输入。

  • is_encoder_decoder (bool, optional, defaults to True) — 指定模型是否为编码器-解码器。

这是用于存储 FastSpeech2ConformerModel 配置的配置类。根据指定的参数实例化一个 FastSpeech2Conformer 模型,定义模型架构。使用默认值实例化配置将产生类似于 FastSpeech2Conformer espnet/fastspeech2_conformer架构的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。

示例:

>>> from transformers import FastSpeech2ConformerModel, FastSpeech2ConformerConfig

>>> # Initializing a FastSpeech2Conformer style configuration
>>> configuration = FastSpeech2ConformerConfig()

>>> # Initializing a model from the FastSpeech2Conformer style configuration
>>> model = FastSpeech2ConformerModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

FastSpeech2ConformerHifiGanConfig

class transformers.FastSpeech2ConformerHifiGanConfig

<来源>

( model_in_dim = 80 upsample_initial_channel = 512 upsample_rates = [8, 8, 2, 2] upsample_kernel_sizes = [16, 16, 4, 4] resblock_kernel_sizes = [3, 7, 11] resblock_dilation_sizes = [[1, 3, 5], [1, 3, 5], [1, 3, 5]] initializer_range = 0.01 leaky_relu_slope = 0.1 normalize_before = True **kwargs )

参数

  • model_in_dim (int, optional, defaults to 80) — 输入对数梅尔频谱图中的频率箱数。

  • upsample_initial_channel (int, 可选, 默认为 512) — 进入上采样网络的输入通道数。

  • upsample_rates (Tuple[int]List[int], 可选, 默认为 [8, 8, 2, 2]) — 一个整数元组,定义了上采样网络中每个 1D 卷积层的步幅。upsample_rates 的长度定义了卷积层的数量,并且必须与 upsample_kernel_sizes 的长度匹配。

  • upsample_kernel_sizes (Tuple[int]List[int], 可选, 默认为 [16, 16, 4, 4]) — 一个整数元组,定义了上采样网络中每个 1D 卷积层的内核大小。upsample_kernel_sizes 的长度定义了卷积层的数量,并且必须与 upsample_rates 的长度匹配。

  • resblock_kernel_sizes (Tuple[int]List[int], 可选, 默认为 [3, 7, 11]) — 一个整数元组,定义了多接受域融合(MRF)模块中 1D 卷积层的内核大小。

  • resblock_dilation_sizes (Tuple[Tuple[int]]List[List[int]], 可选, 默认为 [[1, 3, 5], [1, 3, 5], [1, 3, 5]]) — 一个嵌套的整数元组,定义了多接受域融合(MRF)模块中扩张的 1D 卷积层的扩张率。

  • initializer_range (float, 可选, 默认为 0.01) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。

  • leaky_relu_slope (float, 可选, 默认为 0.1) — leaky ReLU 激活函数使用的负斜率的角度。

  • normalize_before (bool, 可选, 默认为 True) — 是否在使用语音合成器的学习均值和方差进行声谱归一化之前对声谱进行归一化。

这是用于存储 FastSpeech2ConformerHifiGanModel 配置的配置类。根据指定的参数实例化一个 FastSpeech2Conformer HiFi-GAN 语音合成模型,定义模型架构。使用默认值实例化一个配置将产生类似于 FastSpeech2Conformer espnet/fastspeech2_conformer_hifigan 架构的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。

示例:

>>> from transformers import FastSpeech2ConformerHifiGan, FastSpeech2ConformerHifiGanConfig

>>> # Initializing a FastSpeech2ConformerHifiGan configuration
>>> configuration = FastSpeech2ConformerHifiGanConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = FastSpeech2ConformerHifiGan(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

FastSpeech2ConformerWithHifiGanConfig

class transformers.FastSpeech2ConformerWithHifiGanConfig

< source >

( model_config: Dict = None vocoder_config: Dict = None **kwargs )

参数

  • model_config (typing.Dict, 可选) — 文本到语音模型的配置。

  • vocoder_config (typing.Dict, 可选) — 语音合成模型的配置。

这是用于存储 FastSpeech2ConformerWithHifiGan 配置的配置类。根据指定的子模型配置实例化一个 FastSpeech2ConformerWithHifiGanModel 模型,定义模型架构。

使用默认值实例化一个配置将产生类似于 FastSpeech2ConformerModel espnet/fastspeech2_conformer 和 FastSpeech2ConformerHifiGan espnet/fastspeech2_conformer_hifigan 架构的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

model_config(FastSpeech2ConformerConfig,optional):文本到语音模型的配置。vocoder_config(FastSpeech2ConformerHiFiGanConfigoptional):声码器模型的配置。

示例:

>>> from transformers import (
...     FastSpeech2ConformerConfig,
...     FastSpeech2ConformerHifiGanConfig,
...     FastSpeech2ConformerWithHifiGanConfig,
...     FastSpeech2ConformerWithHifiGan,
... )

>>> # Initializing FastSpeech2ConformerWithHifiGan sub-modules configurations.
>>> model_config = FastSpeech2ConformerConfig()
>>> vocoder_config = FastSpeech2ConformerHifiGanConfig()

>>> # Initializing a FastSpeech2ConformerWithHifiGan module style configuration
>>> configuration = FastSpeech2ConformerWithHifiGanConfig(model_config.to_dict(), vocoder_config.to_dict())

>>> # Initializing a model (with random weights)
>>> model = FastSpeech2ConformerWithHifiGan(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

FastSpeech2ConformerTokenizer

class transformers.FastSpeech2ConformerTokenizer

<来源>

( vocab_file bos_token = '<sos/eos>' eos_token = '<sos/eos>' pad_token = '<blank>' unk_token = '<unk>' should_strip_spaces = False **kwargs )

参数

  • vocab_file (str) — 词汇表文件的路径。

  • bos_token (str, optional, defaults to "<sos/eos>") — 序列开始标记。请注意,对于 FastSpeech2,它与eos_token相同。

  • eos_token (str, optional, defaults to "<sos/eos>") — 序列结束标记。请注意,对于 FastSpeech2,它与bos_token相同。

  • pad_token (str, optional, defaults to "<blank>") — 用于填充的标记,例如在批处理不同长度的序列时使用。

  • unk_token (str, optional, defaults to "<unk>") — 未知标记。词汇表中没有的标记无法转换为 ID,而是设置为此标记。

  • should_strip_spaces (bool, optional, defaults to False) — 是否去除标记列表中的空格。

构建一个 FastSpeech2Conformer 分词器。

__call__

<来源>

( text: Union = None text_pair: Union = None text_target: Union = None text_pair_target: Union = None add_special_tokens: bool = True padding: Union = False truncation: Union = None max_length: Optional = None stride: int = 0 is_split_into_words: bool = False pad_to_multiple_of: Optional = None return_tensors: Union = None return_token_type_ids: Optional = None return_attention_mask: Optional = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → export const metadata = 'undefined';BatchEncoding

参数

  • text (str, List[str], List[List[str]], optional) — 要编码的序列或批处理的序列。每个序列可以是字符串或字符串列表(预先标记化的字符串)。如果将序列提供为字符串列表(预先标记化),则必须设置is_split_into_words=True(以消除与批处理序列的歧义)。

  • text_pair (str, List[str], List[List[str]], optional) — 要编码的序列或批处理的序列。每个序列可以是字符串或字符串列表(预先标记化的字符串)。如果将序列提供为字符串列表(预先标记化),则必须设置is_split_into_words=True(以消除与批处理序列的歧义)。

  • text_target (str, List[str], List[List[str]], optional) — 要编码为目标文本的序列或批处理的序列。每个序列可以是字符串或字符串列表(预先标记化的字符串)。如果将序列提供为字符串列表(预先标记化),则必须设置is_split_into_words=True(以消除与批处理序列的歧义)。

  • text_pair_target (str, List[str], List[List[str]], optional) — 要编码为目标文本的序列或批处理的序列。每个序列可以是字符串或字符串列表(预先标记化的字符串)。如果将序列提供为字符串列表(预先标记化),则必须设置is_split_into_words=True(以消除与批处理序列的歧义)。

  • add_special_tokens (bool, optional, defaults to True) — 在编码序列时是否添加特殊标记。这将使用底层的PretrainedTokenizerBase.build_inputs_with_special_tokens函数,该函数定义了自动添加到输入 ID 的标记。如果要自动添加boseos标记,则这很有用。

  • padding (bool, str or PaddingStrategy, optional, defaults to False) — 激活和控制填充。接受以下值:

    • True'longest': 填充到批次中最长的序列(如果只提供了单个序列,则不填充)。

    • 'max_length': 填充到由参数 max_length 指定的最大长度,或者如果未提供该参数,则填充到模型的最大可接受输入长度。

    • False'do_not_pad' (默认): 不填充(即,可以输出具有不同长度序列的批次)。

  • truncation (bool, str 或 TruncationStrategy, 可选, 默认为 False) — 激活和控制截断。接受以下值:

    • True'longest_first': 截断到由参数 max_length 指定的最大长度,或者如果未提供该参数,则截断到模型的最大可接受输入长度。如果提供了一对序列(或一批对序列),则逐标记截断,从一对序列中最长的序列中删除一个标记。

    • 'only_first': 截断到由参数 max_length 指定的最大长度,或者如果未提供该参数,则截断到模型的最大可接受输入长度。如果提供了一对序列(或一批对序列),则仅截断第一个序列。

    • 'only_second': 截断到由参数 max_length 指定的最大长度,或者如果未提供该参数,则截断到模型的最大可接受输入长度。如果提供了一对序列(或一批对序列),则仅截断第二个序列。

    • False'do_not_truncate' (默认): 不截断(即,可以输出序列长度大于模型最大可接受输入大小的批次)。

  • max_length (int, 可选) — 控制截断/填充参数使用的最大长度。

    如果未设置或设置为 None,则如果截断/填充参数中需要最大长度,则将使用预定义的模型最大长度。如果模型没有特定的最大输入长度(如 XLNet),则将禁用截断/填充到最大长度。

  • stride (int, 可选, 默认为 0) — 如果与 max_length 一起设置为一个数字,则当 return_overflowing_tokens=True 时返回的溢出标记将包含截断序列末尾的一些标记,以提供截断和溢出序列之间的一些重叠。该参数的值定义了重叠标记的数量。

  • is_split_into_words (bool, 可选, 默认为 False) — 输入是否已经预分词(例如,已分割为单词)。如果设置为 True,分词器将假定输入已经分割为单词(例如,通过在空格上分割),然后对其进行分词。这对于命名实体识别或标记分类很有用。

  • pad_to_multiple_of (int, 可选) — 如果设置,将序列填充到提供的值的倍数。需要激活 padding。这对于在具有计算能力 >= 7.5(Volta)的 NVIDIA 硬件上启用 Tensor Cores 特别有用。

  • return_tensors (str 或 TensorType, 可选) — 如果设置,将返回张量而不是 Python 整数列表。可接受的值为:

    • 'tf': 返回 TensorFlow tf.constant 对象。

    • 'pt': 返回 PyTorch torch.Tensor 对象。

    • 'np': 返回 Numpy np.ndarray 对象。

  • return_token_type_ids (bool, 可选) — 是否返回标记类型 ID。如果保持默认设置,将根据特定分词器的默认设置返回标记类型 ID,由 return_outputs 属性定义。

    什么是标记类型 ID?

  • return_attention_mask (bool, 可选) — 是否返回注意力遮罩。如果保持默认设置,将根据特定分词器的默认设置返回注意力遮罩,由 return_outputs 属性定义。

    什么是注意力掩码?

  • return_overflowing_tokens (bool可选,默认为False) — 是否返回溢出的令牌序列。如果提供了一对输入 ID 序列(或一批对),并且truncation_strategy = longest_firstTrue,则会引发错误,而不是返回溢出的令牌。

  • return_special_tokens_mask (bool可选,默认为False) — 是否返回特殊令牌掩码信息。

  • return_offsets_mapping (bool可选,默认为False) — 是否返回每个令牌的(char_start,char_end)

    仅适用于继承自 PreTrainedTokenizerFast 的快速分词器,如果使用 Python 的分词器,此方法将引发NotImplementedError

  • return_length (bool可选,默认为False) — 是否返回编码输入的长度。

  • verbose (bool可选,默认为True) — 是否打印更多信息和警告。**kwargs — 传递给self.tokenize()方法

返回

BatchEncoding

具有以下字段的 BatchEncoding:

  • input_ids — 要馈送到模型的令牌 ID 列表。

    什么是输入 ID?

  • token_type_ids — 要馈送到模型的令牌类型 ID 列表(当return_token_type_ids=Truetoken_type_idsself.model_input_names中时)。

    什么是令牌类型 ID?

  • attention_mask — 指定哪些令牌应由模型关注的索引列表(当return_attention_mask=Trueattention_maskself.model_input_names中时)。

    什么是注意力掩码?

  • overflowing_tokens — 溢出令牌序列的列表(当指定max_length并且return_overflowing_tokens=True时)。

  • num_truncated_tokens — 截断的令牌数(当指定max_length并且return_overflowing_tokens=True时)。

  • special_tokens_mask — 由 0 和 1 组成的列表,其中 1 指定添加的特殊令牌,0 指定常规序列令牌(当add_special_tokens=Truereturn_special_tokens_mask=True时)。

  • length — 输入的长度(当return_length=True时)

对一个或多个序列或一个或多个序列对进行标记化和准备模型的主要方法。

save_vocabulary

<来源>

( save_directory: str filename_prefix: Optional = None ) → export const metadata = 'undefined';Tuple(str)

参数

  • save_directorystr) — 要保存词汇表的目录。

返回

Tuple(str)

保存的文件路径。

将词汇表和特殊令牌文件保存到目录。

decode

<来源>

( token_ids **kwargs )

batch_decode

<来源>

( sequences: Union skip_special_tokens: bool = False clean_up_tokenization_spaces: bool = None **kwargs ) → export const metadata = 'undefined';List[str]

参数

  • sequencesUnion[List[int],List[List[int]],np.ndarray,torch.Tensor,tf.Tensor]) — 标记化输入 ID 的列表。可以使用__call__方法获得。

  • skip_special_tokens (bool可选,默认为False) — 是否在解码中删除特殊令牌。

  • clean_up_tokenization_spaces (bool可选) — 是否清理标记化空格。如果为None,将默认为self.clean_up_tokenization_spaces

  • kwargs(附加关键字参数,可选) — 将传递给底层模型特定的解码方法。

返回

List[str]

解码句子列表。

通过调用解码将令牌 ID 列表的列表转换为字符串列表。

FastSpeech2ConformerModel

class transformers.FastSpeech2ConformerModel

<来源>

( config: FastSpeech2ConformerConfig )

参数

  • config(FastSpeech2ConformerConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

FastSpeech2Conformer 模型。该模型继承自 PreTrainedModel。检查超类文档以获取库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

该模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

FastSpeech 2 模块。

这是 FastSpeech 2 中描述的模块,详见‘FastSpeech 2: Fast and High-Quality End-to-End Text to Speech’ arxiv.org/abs/2006.04558。我们使用 FastPitch 中引入的令牌平均值,而不是量化音高和能量。编码器和解码器是 Conformers 而不是常规 Transformers。

forward

<来源>

( input_ids: LongTensor attention_mask: Optional = None spectrogram_labels: Optional = None duration_labels: Optional = None pitch_labels: Optional = None energy_labels: Optional = None speaker_ids: Optional = None lang_ids: Optional = None speaker_embedding: Optional = None return_dict: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None ) → export const metadata = 'undefined';transformers.models.fastspeech2_conformer.modeling_fastspeech2_conformer.FastSpeech2ConformerModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)- 文本向量的输入序列。

  • attention_mask(形状为(batch_size, sequence_length)torch.LongTensor可选,默认为None)- 避免在填充标记索引上执行卷积和注意力的掩码。选择在[0, 1]中的掩码值:0 表示掩码的标记,1 表示未掩码的标记。

  • spectrogram_labels(形状为(batch_size, max_spectrogram_length, num_mel_bins)torch.FloatTensor可选,默认为None)- 填充目标特征的批次。

  • duration_labels(形状为(batch_size, sequence_length + 1)torch.LongTensor可选,默认为None)- 填充的持续时间批次。

  • pitch_labels(形状为(batch_size, sequence_length + 1, 1)torch.FloatTensor可选,默认为None)- 填充的令牌平均音高批次。

  • energy_labels(形状为(batch_size, sequence_length + 1, 1)torch.FloatTensor可选,默认为None)- 填充的令牌平均能量。

  • speaker_ids(形状为(batch_size, 1)torch.LongTensor可选,默认为None)- 用于调节模型输出语音特征的说话者 id。

  • lang_ids(形状为(batch_size, 1)torch.LongTensor可选,默认为None)- 用于调节模型输出语音特征的语言 id。

  • speaker_embedding(形状为(batch_size, embedding_dim)torch.FloatTensor可选,默认为None)- 包含语音特征的调节信号的嵌入。

  • return_dictbool可选,默认为None)- 是否返回FastSpeech2ConformerModelOutput而不是普通元组。

  • output_attentionsbool可选,默认为None)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions

  • output_hidden_statesbool可选,默认为None)- 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states

返回

transformers.models.fastspeech2_conformer.modeling_fastspeech2_conformer.FastSpeech2ConformerModelOutputtuple(torch.FloatTensor)

一个transformers.models.fastspeech2_conformer.modeling_fastspeech2_conformer.FastSpeech2ConformerModelOutput或一个torch.FloatTensor元组(如果传递了return_dict=Falseconfig.return_dict=False时)包括各种元素,取决于配置(FastSpeech2ConformerConfig)和输入。

  • losstorch.FloatTensor,形状为(1,)可选,当提供labels时返回)— 频谱图生成损失。

  • spectrogramtorch.FloatTensor,形状为(batch_size, sequence_length, num_bins))— 预测的频谱图。

  • encoder_last_hidden_statetorch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)可选)— 模型编码器最后一层的隐藏状态序列。

  • encoder_hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入输出的一个,加上每一层的输出的一个)。

    编码器在每一层输出的隐藏状态加上初始嵌入输出。

  • encoder_attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组。

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

  • decoder_hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入输出的一个,加上每一层的输出的一个)。

    解码器在每一层输出的隐藏状态加上初始嵌入输出。

  • decoder_attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组。

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

  • duration_outputstorch.LongTensor,形状为(batch_size, max_text_length + 1)可选)— 时长预测器的输出。

  • pitch_outputstorch.FloatTensor,形状为(batch_size, max_text_length + 1, 1)可选)— 音高预测器的输出。

  • energy_outputstorch.FloatTensor,形状为(batch_size, max_text_length + 1, 1)可选)— 能量预测器的输出。

示例:

>>> from transformers import (
...     FastSpeech2ConformerTokenizer,
...     FastSpeech2ConformerModel,
...     FastSpeech2ConformerHifiGan,
... )

>>> tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
>>> inputs = tokenizer("some text to convert to speech", return_tensors="pt")
>>> input_ids = inputs["input_ids"]

>>> model = FastSpeech2ConformerModel.from_pretrained("espnet/fastspeech2_conformer")
>>> output_dict = model(input_ids, return_dict=True)
>>> spectrogram = output_dict["spectrogram"]

>>> vocoder = FastSpeech2ConformerHifiGan.from_pretrained("espnet/fastspeech2_conformer_hifigan")
>>> waveform = vocoder(spectrogram)
>>> print(waveform.shape)
torch.Size([1, 49664])

FastSpeech2ConformerHifiGan

class transformers.FastSpeech2ConformerHifiGan

< source >

( config: FastSpeech2ConformerHifiGanConfig )

参数

  • config(FastSpeech2ConformerConfig)— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

HiFi-GAN 语音合成器。此模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

此模型还是一个 PyTorch torch.nn.Module 子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

forward

< source >

( spectrogram: FloatTensor ) → export const metadata = 'undefined';torch.FloatTensor

参数

  • spectrogram (torch.FloatTensor) — 包含对数梅尔频谱图的张量。可以是批量处理的,形状为 (batch_size, sequence_length, config.model_in_dim),也可以是未批量处理的,形状为 (sequence_length, config.model_in_dim)

返回

torch.FloatTensor

包含语音波形的张量。如果输入的频谱图是批量处理的,则形状为 (batch_size, num_frames,)。如果未批量处理,则形状为 (num_frames,)

将对数梅尔频谱图转换为语音波形。传递一批对数梅尔频谱图将返回一批语音波形。传递单个未批量处理的对数梅尔频谱图将返回单个未批量处理的语音波形。

FastSpeech2ConformerWithHifiGan

class transformers.FastSpeech2ConformerWithHifiGan

< source >

( config: FastSpeech2ConformerWithHifiGanConfig )

参数

  • config (FastSpeech2ConformerWithHifiGanConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。

FastSpeech2ConformerModel 具有 FastSpeech2ConformerHifiGan 语音合成器头部,执行文本转语音(波形)。此模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

此模型还是一个 PyTorch torch.nn.Module 子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

forward

< source >

( input_ids: LongTensor attention_mask: Optional = None spectrogram_labels: Optional = None duration_labels: Optional = None pitch_labels: Optional = None energy_labels: Optional = None speaker_ids: Optional = None lang_ids: Optional = None speaker_embedding: Optional = None return_dict: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None ) → export const metadata = 'undefined';transformers.models.fastspeech2_conformer.modeling_fastspeech2_conformer.FastSpeech2ConformerWithHifiGanOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 文本向量的输入序列。

  • attention_mask (torch.LongTensor of shape (batch_size, sequence_length), optional, defaults to None) — 避免在填充令牌索引上执行卷积和注意力的掩码。掩码值选在 [0, 1]:0 表示掩码的令牌,1 表示未掩码的令牌。

  • spectrogram_labels (torch.FloatTensor of shape (batch_size, max_spectrogram_length, num_mel_bins), optional, defaults to None) — 批量填充的目标特征。

  • duration_labels (torch.LongTensor of shape (batch_size, sequence_length + 1), optional, defaults to None) — 批量填充的持续时间。

  • pitch_labels (torch.FloatTensor of shape (batch_size, sequence_length + 1, 1), optional, defaults to None) — 批量填充的令牌平均音高。

  • energy_labels (torch.FloatTensor of shape (batch_size, sequence_length + 1, 1), optional, defaults to None) — 填充的令牌平均能量的批量。

  • speaker_ids (torch.LongTensor of shape (batch_size, 1), optional, defaults to None) — 用于调节模型输出语音特征的说话者 id。

  • lang_ids (torch.LongTensor of shape (batch_size, 1), optional, defaults to None) — 用于调节模型输出语音特征的语言 id。

  • speaker_embedding (torch.FloatTensor of shape (batch_size, embedding_dim), optional, defaults to None) — 包含语音特征调节信号的嵌入。

  • return_dict (bool, optional, defaults to None) — 是否返回FastSpeech2ConformerModelOutput而不是普通元组。

  • output_attentions (bool, optional, defaults to None) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_states (bool, optional, defaults to None) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

返回

transformers.models.fastspeech2_conformer.modeling_fastspeech2_conformer.FastSpeech2ConformerWithHifiGanOutputtuple(torch.FloatTensor)

一个transformers.models.fastspeech2_conformer.modeling_fastspeech2_conformer.FastSpeech2ConformerWithHifiGanOutput或一个torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False,则返回)包含根据配置(<class 'transformers.models.fastspeech2_conformer.configuration_fastspeech2_conformer.FastSpeech2ConformerWithHifiGanConfig'>)和输入的各种元素。

  • waveform (torch.FloatTensor of shape (batch_size, audio_length)) — 通过声码器将预测的梅尔频谱图传递后的语音输出。

  • loss (torch.FloatTensor of shape (1,), optional, 当提供labels时返回) — 频谱图生成损失。

  • spectrogram (torch.FloatTensor of shape (batch_size, sequence_length, num_bins)) — 预测的频谱图。

  • encoder_last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 模型编码器最后一层的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组。

    编码器每层的隐藏状态加上初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组。

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

  • decoder_hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组。

    每层解码器的输出隐藏状态加上初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组。

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

  • duration_outputs (torch.LongTensor of shape (batch_size, max_text_length + 1), optional) — 持续时间预测器的输出。

  • pitch_outputs (torch.FloatTensor of shape (batch_size, max_text_length + 1, 1), optional) — 音高预测器的输出。

  • energy_outputs (torch.FloatTensor of shape (batch_size, max_text_length + 1, 1), optional) — 能量预测器的输出。

示例:

>>> from transformers import (
...     FastSpeech2ConformerTokenizer,
...     FastSpeech2ConformerWithHifiGan,
... )

>>> tokenizer = FastSpeech2ConformerTokenizer.from_pretrained("espnet/fastspeech2_conformer")
>>> inputs = tokenizer("some text to convert to speech", return_tensors="pt")
>>> input_ids = inputs["input_ids"]

>>> model = FastSpeech2ConformerWithHifiGan.from_pretrained("espnet/fastspeech2_conformer_with_hifigan")
>>> output_dict = model(input_ids, return_dict=True)
>>> waveform = output_dict["waveform"]
>>> print(waveform.shape)
torch.Size([1, 49664])

FLAN-T5

原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/flan-t5

概述

FLAN-T5 发布在论文扩展指令微调语言模型中 - 这是 T5 的增强版本,已在多种任务中进行微调。

可以直接使用 FLAN-T5 权重,无需微调模型:

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-small")
>>> tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-small")

>>> inputs = tokenizer("A step by step recipe to make bolognese pasta:", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Pour a cup of bolognese into a large bowl and add the pasta']

FLAN-T5 包含与 T5 版本 1.1 相同的改进(有关模型改进的完整详情,请参见此处。)

Google 发布了以下变体:

原始检查点可以在此处找到。

有关所有 API 参考、代码示例和笔记本,请参阅 T5 的文档页面。有关 FLAN-T5 的训练和评估的更多详细信息,请参考模型卡片。

FLAN-UL2

原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/flan-ul2

概述

Flan-UL2 是基于 T5 架构的编码器解码器模型。它使用与去年早些时候发布的 UL2 模型相同的配置。它经过“Flan”提示调整和数据集收集进行微调。与Flan-T5类似,可以直接使用 FLAN-UL2 权重而无需微调模型:

根据原始博客,以下是显著的改进:

  • 原始的 UL2 模型只使用了 512 的感受野进行训练,这使得它对于大量 N-shot 提示不理想。

  • Flan-UL2 检查点使用 2048 的感受野,使其更适用于少样本上下文学习。

  • 原始的 UL2 模型还有模式切换令牌,这对于获得良好性能是相当必要的。然而,它们有点繁琐,因为这经常需要在推理或微调过程中进行一些更改。在这次更新/更改中,我们继续训练 UL2 20B 额外的 100k 步(使用小批量)来忘记“模式令牌”,然后应用 Flan 指令调整。这个 Flan-UL2 检查点不再需要模式令牌。Google 发布了以下变体:

原始检查点可以在这里找到。

在资源有限的设备上运行

该模型非常庞大(半精度约 40GB),因此如果您只想运行模型,请确保以 8 位加载您的模型,并使用device_map="auto"确保您没有任何 OOM 问题!

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-ul2", load_in_8bit=True, device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("google/flan-ul2")

>>> inputs = tokenizer("A step by step recipe to make bolognese pasta:", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['In a large skillet, brown the ground beef and onion over medium heat. Add the garlic']

请参考 T5 的文档页面获取 API 参考、提示、代码示例和笔记本。

FlauBERT

原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/flaubert

模型 空间

概述

FlauBERT 模型是由 Hang Le 等人在论文FlauBERT:法语无监督语言模型预训练中提出的。它是使用掩码语言建模(MLM)目标(如 BERT)预训练的 Transformer 模型。

论文摘要如下:

语言模型已成为在许多不同自然语言处理(NLP)任务中实现最先进结果的关键步骤。利用当今大量可用的未标记文本,它们提供了一种有效的方式来预训练连续的词表示,可以在下游任务中进行微调,以及在句子级别上对其进行上下文化。这已经在英语中广泛证明了使用上下文化表示(Dai 和 Le,2015; Peters 等,2018; Howard 和 Ruder,2018; Radford 等,2018; Devlin 等,2019; Yang 等,2019b)。在本文中,我们介绍并分享 FlauBERT,这是一个在非常大型和异构的法语语料库上学习的模型。使用新的法国国家科学研究中心(CNRS)Jean Zay 超级计算机训练不同大小的模型。我们将我们的法语语言模型应用于各种 NLP 任务(文本分类、释义、自然语言推理、解析、词义消歧),并展示大多数时候它们优于其他预训练方法。FlauBERT 的不同版本以及用于下游任务的统一评估协议,称为 FLUE(法语语言理解评估),已经共享给研究社区,以进行进一步可重现的法语 NLP 实验。

此模型由formiel贡献。原始代码可以在这里找到。

提示:

  • 与 RoBERTa 一样,没有句子排序预测(只是在 MLM 目标上训练)。

资源

  • 文本分类任务指南

  • 标记分类任务指南

  • 问答任务指南

  • 掩码语言建模任务指南

  • 多选任务指南

FlaubertConfig

class transformers.FlaubertConfig

<来源>

( pre_norm = False layerdrop = 0.0 vocab_size = 30145 emb_dim = 2048 n_layers = 12 n_heads = 16 dropout = 0.1 attention_dropout = 0.1 gelu_activation = True sinusoidal_embeddings = False causal = False asm = False n_langs = 1 use_lang_emb = True max_position_embeddings = 512 embed_init_std = 0.02209708691207961 layer_norm_eps = 1e-12 init_std = 0.02 bos_index = 0 eos_index = 1 pad_index = 2 unk_index = 3 mask_index = 5 is_encoder = True summary_type = 'first' summary_use_proj = True summary_activation = None summary_proj_to_labels = True summary_first_dropout = 0.1 start_n_top = 5 end_n_top = 5 mask_token_id = 0 lang_id = 0 pad_token_id = 2 bos_token_id = 0 **kwargs )

参数

  • pre_normbool可选,默认为False)— 是否在每层的注意力后应用层归一化之前还是之后应用前馈层(Vaswani 等人,Tensor2Tensor 用于神经机器翻译。2018)

  • layerdropfloat可选,默认为 0.0)— 训练期间丢弃层的概率(Fan 等人,使用结构化丢弃减少 Transformer 深度的需求。ICLR 2020)

  • vocab_sizeint可选,默认为 30145)— FlauBERT 模型的词汇量。定义了在调用 FlaubertModel 或 TFFlaubertModel 时可以表示的不同令牌数量。

  • emb_dimint可选,默认为 2048)— 编码器层和池化层的维度。

  • n_layerint可选,默认为 12)— Transformer 编码器中的隐藏层数量。

  • n_headint可选,默认为 16)— Transformer 编码器中每个注意力层的注意力头数。

  • dropoutfloat可选,默认为 0.1)— 嵌入层、编码器和池化器中所有全连接层的丢弃概率。

  • attention_dropoutfloat可选,默认为 0.1)— 注意机制的丢弃概率。

  • gelu_activationbool可选,默认为True)— 是否使用gelu激活而不是relu

  • sinusoidal_embeddingsbool可选,默认为False)— 是否使用正弦位置嵌入而不是绝对位置嵌入。

  • causalbool可选,默认为False) — 模型是否应该以因果方式行为。因果模型使用三角形注意掩码,以便只关注左侧上下文而不是双向上下文。

  • asmbool可选,默认为False)— 是否使用自适应对数 softmax 投影层而不是线性层进行预测。

  • n_langsint可选,默认为 1)— 模型处理的语言数量。对于单语模型,设置为 1。

  • use_lang_embbool可选,默认为True)— 是否使用语言嵌入。一些模型使用额外的语言嵌入,请参阅多语言模型页面以获取有关如何使用它们的信息。

  • max_position_embeddingsint可选,默认为 512)— 该模型可能会使用的最大序列长度。通常设置为一个较大的值以防万一(例如 512 或 1024 或 2048)。

  • embed_init_stdfloat可选,默认为 2048^-0.5)— 用于初始化嵌入矩阵的截断正态初始化器的标准差。

  • init_stdint可选,默认为 50257)— 用于初始化除嵌入矩阵之外的所有权重矩阵的截断正态初始化器的标准差。

  • layer_norm_epsfloat可选,默认为 1e-12)— 层归一化层使用的 epsilon。

  • bos_indexint可选,默认为 0)— 词汇表中句子开头标记的索引。

  • eos_indexint可选,默认为 1)— 词汇表中句子结束标记的索引。

  • pad_indexint可选,默认为 2)— 词汇表中填充标记的索引。

  • unk_indexint可选,默认为 3)— 词汇表中未知标记的索引。

  • mask_indexint可选,默认为 5)— 词汇表中掩码标记的索引。

  • is_encoder(bool, 可选,默认为True) — 初始化模型是否应该是 Transformer 编码器或解码器,如 Vaswani 等人所见。

  • summary_typestring可选,默认为“first”)— 在进行序列摘要时使用的参数。用于序列分类和多选模型。

    必须是以下选项之一:

    • "last": 获取最后一个标记的隐藏状态(类似 XLNet)。

    • "first": 获取第一个标记的隐藏状态(类似 BERT)。

    • "mean": 获取所有标记的隐藏状态的平均值。

    • "cls_index": 提供一个分类标记位置的张量(类似 GPT/GPT-2)。

    • "attn": 目前未实现,使用多头注意力。

  • summary_use_projbool可选,默认为True) — 在进行序列摘要时使用的参数。用于序列分类和多选模型。

    是否在向量提取后添加投影。

  • summary_activationstr可选)— 在进行序列摘要时使用的参数。用于序列分类和多选模型。

    将输出传递给"tanh"以获得 tanh 激活,任何其他值将导致无激活。

  • summary_proj_to_labelsbool可选,默认为True)— 用于序列分类和多选模型。

    投影输出应具有config.num_labelsconfig.hidden_size类。

  • summary_first_dropout (float, optional, 默认为 0.1) — 用于序列分类和多选模型。

    在投影和激活后使用的丢弃比率。

  • start_n_top (int, optional, 默认为 5) — 用于 SQuAD 评估脚本。

  • end_n_top (int, optional, 默认为 5) — 用于 SQuAD 评估脚本。

  • mask_token_id (int, optional, 默认为 0) — 用于在 MLM 上下文中生成文本时识别掩码标记的与模型无关的参数。

  • lang_id (int, optional, 默认为 1) — 模型使用的语言 ID。在生成特定语言的文本时使用此参数。

这是用于存储 FlaubertModel 或 TFFlaubertModel 配置的配置类。它用于根据指定的参数实例化一个 FlauBERT 模型,定义模型架构。使用默认值实例化配置将产生类似于 FlauBERT flaubert/flaubert_base_uncased 架构的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

FlaubertTokenizer

class transformers.FlaubertTokenizer

< source >

( vocab_file merges_file do_lowercase = False unk_token = '<unk>' bos_token = '<s>' sep_token = '</s>' pad_token = '<pad>' cls_token = '</s>' mask_token = '<special1>' additional_special_tokens = ['<special0>', '<special1>', '<special2>', '<special3>', '<special4>', '<special5>', '<special6>', '<special7>', '<special8>', '<special9>'] lang2id = None id2lang = None **kwargs )

参数

  • vocab_file (str) — 词汇文件。

  • merges_file (str) — 合并文件。

  • do_lowercase (bool, optional, 默认为 False) — 控制小写。

  • unk_token (str, optional, 默认为 "<unk>") — 未知标记。词汇表中不存在的标记无法转换为 ID,而是设置为此标记。

  • bos_token (str, optional, 默认为 "<s>") — 在预训练期间使用的序列开始标记。可用作序列分类器标记。

    在使用特殊标记构建序列时,这不是用于序列开头的标记。使用的标记是 cls_token

  • sep_token (str, optional, 默认为 "</s>") — 分隔符标记,在从多个序列构建序列时使用,例如用于序列分类的两个序列或用于问答的文本和问题。还用作使用特殊标记构建的序列的最后一个标记。

  • pad_token (str, optional, 默认为 "<pad>") — 用于填充的标记,例如在批处理不同长度的序列时使用。

  • cls_token (str, optional, 默认为 "</s>") — 用于进行序列分类时使用的分类器标记(对整个序列进行分类而不是每个标记进行分类)。在使用特殊标记构建时,它是序列的第一个标记。

  • mask_token (str, optional, 默认为 "<special1>") — 用于掩码值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。

  • additional_special_tokens (List[str], optional, 默认为 ['<special0>', '<special1>', '<special2>', '<special3>', '<special4>', '<special5>', '<special6>', '<special7>', '<special8>', '<special9>']) — 附加特殊标记的列表。

  • lang2id (Dict[str, int], optional) — 将语言字符串标识符映射到其 ID 的字典。

  • id2lang (Dict[int, str], optional) — 将语言 ID 映射到其字符串标识符的字典。

构建一个 Flaubert 分词器。基于字节对编码。分词过程如下:

  • 摩西预处理和标记化。

  • 规范化所有输入文本。

  • 参数special_tokens和函数set_special_tokens可用于向词汇表添加额外的符号(如“classify”)。

  • 参数do_lowercase控制小写(对于预训练词汇表会自动设置)。

此标记器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。

build_inputs_with_special_tokens

<来源>

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

  • token_ids_0 (List[int]) — 将添加特殊标记的 ID 列表。

  • token_ids_1 (List[int]可选) — 第二个序列对应的 ID 列表。

返回

List[int]

具有适当特殊标记的输入 ID 列表。

通过连接和添加特殊标记,为序列分类任务从序列或序列对构建模型输入。一个 XLM 序列的格式如下:

  • 单个序列:<s> X </s>

  • 序列对:<s> A </s> B </s>

convert_tokens_to_string

<来源>

( tokens )

将一系列标记(字符串)转换为单个字符串。

create_token_type_ids_from_sequences

<来源>

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

  • token_ids_0 (List[int]) — ID 列表。

  • token_ids_1 (List[int]可选) — 第二个序列对应的 ID 列表。

返回

List[int]

根据给定的序列,列出 token 类型 ID 的列表。

从传递的两个序列创建一个用于序列对分类任务的掩码。一个 XLM 序列

配对掩码的格式如下:

0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence    | second sequence |

如果token_ids_1None,则此方法仅返回掩码的第一部分(0)。

get_special_tokens_mask

<来源>

( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → export const metadata = 'undefined';List[int]

参数

  • token_ids_0 (List[int]) — ID 列表。

  • token_ids_1 (List[int]可选) — 第二个序列对应的 ID 列表。

  • already_has_special_tokens (bool可选,默认为False) — 标记列表是否已经使用特殊标记格式化为模型。

返回

List[int]

一个整数列表,范围为[0, 1]:特殊标记为 1,序列标记为 0。

从没有添加特殊标记的标记列表中检索序列 ID。在使用标记器的prepare_for_model方法添加特殊标记时调用此方法。

PytorchHide Pytorch 内容

FlaubertModel

class transformers.FlaubertModel

<来源>

( config )

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None langs: Optional = None token_type_ids: Optional = None position_ids: Optional = None lengths: Optional = None cache: Optional = None head_mask: Optional = None inputs_embeds: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为(batch_size, sequence_length)) — 输入序列标记在词汇表中的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor,形状为 (batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意力的蒙版。蒙版值选择在 [0, 1] 中:

    • 1 用于未被 掩盖 的标记,

    • 0 用于被 掩盖 的标记。

    注意力蒙版是什么?

  • token_type_ids (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引选择在 [0, 1] 中:

    • 0 对应于 句子 A 的标记,

    • 1 对应于 句子 B 的标记。

    令牌类型 ID 是什么?

  • position_ids (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    位置 ID 是什么?

  • lengths (torch.LongTensor,形状为 (batch_size,)可选) — 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用 attention_mask 来获得相同的结果(请参见上文),这里保留是为了兼容性。索引选择在 [0, ..., input_ids.size(-1)]

  • cache (Dict[str, torch.FloatTensor]可选) — 包含预计算的隐藏状态(由模型计算的注意力块中的键和值)的字符串到 torch.FloatTensor 的字典。可用于加速顺序解码。在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使自注意力模块的选定头部失效的蒙版。蒙版值选择在 [0, 1] 中:

    • 1 表示头部未被 掩盖

    • 0 表示头部被 掩盖

  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,您可以直接传递一个嵌入表示,而不是传递 input_ids。如果您想要更多控制权来将 input_ids 索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。

  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions

  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states

  • return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时)包含各种元素,具体取决于配置(FlaubertConfig)和输入。

  • last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。

  • hidden_states (tuple(torch.FloatTensor)可选,当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(如果模型有嵌入层的输出,则为嵌入的输出 + 每层的输出)。

    模型在每一层输出处的隐藏状态加上可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)—形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

FlaubertModel 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, FlaubertModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = FlaubertModel.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state

FlaubertWithLMHeadModel

class transformers.FlaubertWithLMHeadModel

<来源>

( config )

参数

  • config(FlaubertConfig)—模型的所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

Flaubert 模型变压器,顶部带有语言建模头(线性层,权重与输入嵌入绑定)。

此模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

此模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None langs: Optional = None token_type_ids: Optional = None position_ids: Optional = None lengths: Optional = None cache: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MaskedLMOutput or tuple(torch.FloatTensor)

参数

  • input_idstorch.LongTensor,形状为(batch_size, sequence_length))—词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    输入 ID 是什么?

  • attention_masktorch.FloatTensor,形状为(batch_size, sequence_length)可选)—避免在填充标记索引上执行注意力的掩码。选择的掩码值为[0, 1]

    • 对于未被“掩盖”的标记为 1,

    • 对于被“掩盖”的标记为 0。

    注意力掩码是什么?

  • token_type_idstorch.LongTensor,形状为(batch_size, sequence_length)可选)—段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]中:

    • 0 对应于句子 A标记,

    • 1 对应于句子 B标记。

    令牌类型 ID 是什么?

  • position_idstorch.LongTensor,形状为(batch_size, sequence_length)可选)—输入序列标记的每个位置的位置嵌入的索引。在范围[0, config.max_position_embeddings - 1]中选择。

    位置 ID 是什么?

  • lengths (torch.LongTensor,形状为(batch_size,)optional) — 每个句子的长度,可用于避免在填充令牌索引上执行注意力。您也可以使用attention_mask获得相同的结果(请参见上文),这里保留以保持兼容性。在[0, ..., input_ids.size(-1)]中选择的索引:

  • cache (Dict[str, torch.FloatTensor]optional) — 包含预先计算的隐藏状态(由模型计算的注意力块中的键和值)的字符串到torch.FloatTensor的字典。可用于加速顺序解码。在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask (torch.FloatTensor,形状为(num_heads,)(num_layers, num_heads)optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值在[0, 1]中选择:

    • 1 表示头部未被掩码,

    • 0 表示头部被掩码。

  • inputs_embeds (torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions

  • output_hidden_states (booloptional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

  • labels (torch.LongTensor,形状为(batch_size, sequence_length)optional) — 用于语言建模的标签。请注意,模型内部会对标签进行偏移,即您可以设置labels = input_ids。在[-100, 0, ..., config.vocab_size]中选择索引。所有设置为-100的标签将被忽略(掩码),损失仅计算在[0, ..., config.vocab_size]中的标签。

返回

transformers.modeling_outputs.MaskedLMOutput 或tuple(torch.FloatTensor)

transformers.modeling_outputs.MaskedLMOutput 或torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False时)包含根据配置(FlaubertConfig)和输入的各种元素。

  • loss (torch.FloatTensor,形状为(1,)optional,当提供labels时返回) — 掩码语言建模(MLM)损失。

  • logits (torch.FloatTensor,形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。

  • hidden_states (tuple(torch.FloatTensor)optional,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型具有嵌入层,则为嵌入的输出 + 每个层的输出)。

    每层输出的模型的隐藏状态加上可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor)optional,当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

FlaubertWithLMHeadModel 的前向方法重写了 __call__ 特殊方法。

虽然前向传递的方法需要在此函数内定义,但应该在之后调用 Module 实例,而不是在此处调用,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, FlaubertWithLMHeadModel
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = FlaubertWithLMHeadModel.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer("The capital of France is <special1>.", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # retrieve index of <special1>
>>> mask_token_index = (inputs.input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0]

>>> predicted_token_id = logits[0, mask_token_index].argmax(axis=-1)

>>> labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]
>>> # mask labels of non-<special1> tokens
>>> labels = torch.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)

>>> outputs = model(**inputs, labels=labels)

FlaubertForSequenceClassification

class transformers.FlaubertForSequenceClassification

<来源>

( config )

参数

  • config (FlaubertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。

在顶部有一个用于序列分类/回归的 Flaubert 模型(在汇总输出的顶部有一个线性层),例如用于 GLUE 任务。

这个模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

这个模型也是 PyTorch torch.nn.Module 的子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None langs: Optional = None token_type_ids: Optional = None position_ids: Optional = None lengths: Optional = None cache: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor,形状为 (batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示未被掩码的标记,

    • 0 表示被掩码的标记。

    什么是注意力掩码?

  • token_type_ids (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引在 [0, 1] 中选择:

    • 0 对应于一个 句子 A 的标记,

    • 1 对应于一个 句子 B 的标记。

    什么是标记类型 ID?

  • position_ids (torch.LongTensor,形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。

    什么是位置 ID?

  • lengths (torch.LongTensor,形状为 (batch_size,)可选) — 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用 attention_mask 获得相同的结果(见上文),这里保留是为了兼容性。索引在 [0, ..., input_ids.size(-1)] 中选择:

  • cacheDict[str, torch.FloatTensor]可选)- 包含由模型计算的预计算隐藏状态(注意力块中的键和值)的字符串到torch.FloatTensor的字典对象(请参见下面的cache输出)。可用于加速顺序解码。在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)- 用于使自注意力模块的选定头部失效的掩码。掩码值选定在[0, 1]范围内:

    • 1 表示头部未被掩盖,

    • 0 表示头部被掩盖。

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)- 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您希望更多地控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentionsbool可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_statesbool可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dictbool可选)- 是否返回 ModelOutput 而不是普通元组。

  • labels(形状为(batch_size,)torch.LongTensor可选)- 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。

返回值

transformers.modeling_outputs.SequenceClassifierOutput 或tuple(torch.FloatTensor)

transformers.modeling_outputs.SequenceClassifierOutput 或torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False,则包括根据配置(FlaubertConfig)和输入而异的各种元素。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)- 分类(或如果config.num_labels==1则为回归)损失。

  • logits(形状为(batch_size, config.num_labels)torch.FloatTensor)- 分类(或如果config.num_labels==1则为回归)得分(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)- 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(用于嵌入层的输出和每层的输出)。

    模型在每一层输出的隐藏状态以及可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

FlaubertForSequenceClassification 的前向方法,覆盖__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

单标签分类的示例:

>>> import torch
>>> from transformers import AutoTokenizer, FlaubertForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = FlaubertForSequenceClassification.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = FlaubertForSequenceClassification.from_pretrained("flaubert/flaubert_base_cased", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss

多标签分类的示例:

>>> import torch
>>> from transformers import AutoTokenizer, FlaubertForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = FlaubertForSequenceClassification.from_pretrained("flaubert/flaubert_base_cased", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = FlaubertForSequenceClassification.from_pretrained(
...     "flaubert/flaubert_base_cased", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

FlaubertForMultipleChoice

class transformers.FlaubertForMultipleChoice

<来源>

( config *inputs **kwargs )

参数

  • config(FlaubertConfig)— 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

Flaubert 模型在顶部具有多选分类头(池化输出上的线性层和 softmax),例如用于 RocStories/SWAG 任务。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

此模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None langs: Optional = None token_type_ids: Optional = None position_ids: Optional = None lengths: Optional = None cache: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MultipleChoiceModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)— 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:

    • 1 表示未被掩盖的标记,

    • 0 表示被掩盖的标记。

    什么是注意力掩码?

  • token_type_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 指示输入的第一部分和第二部分的段标记索引。索引选择在[0, 1]之间。

    • 0 对应于句子 A标记,

    • 1 对应于句子 B标记。

    什么是标记类型 ID?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • lengths(形状为(batch_size,)torch.LongTensor可选)— 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用attention_mask获得相同的结果(见上文),这里保留以保持兼容性。索引选择在[0, ..., input_ids.size(-1)]之间:

  • cacheDict[str, torch.FloatTensor]可选)— 包含由模型计算的预计算隐藏状态(注意力块中的键和值)的字符串到torch.FloatTensor的字典。可用于加速顺序解码。在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值选在[0, 1]范围内:

    • 1 表示头部未被masked

    • 0 表示头部被masked

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这很有用。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dictbool可选)— 是否返回一个 ModelOutput 而不是一个普通元组。

  • labels(形状为(batch_size,)torch.LongTensor可选)— 用于计算多项选择分类损失的标签。索引应在[0, ..., num_choices-1]范围内,其中num_choices是输入张量的第二维的大小。(参见上面的input_ids

返回

transformers.modeling_outputs.MultipleChoiceModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.MultipleChoiceModelOutput 或者一个torch.FloatTensor元组(如果传递了return_dict=False或者config.return_dict=False时)包含不同的元素,取决于配置(FlaubertConfig)和输入。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)— 分类损失。

  • logits(形状为(batch_size, num_choices)torch.FloatTensor)— num_choices是输入张量的第二维。(参见上面的input_ids)。

    分类得分(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=True或者config.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出的输出+每层的输出)。

    模型在每层输出的隐藏状态加上可选的初始嵌入输出。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=True或者config.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

FlaubertForMultipleChoice 的前向方法,覆盖了__call__特殊方法。

尽管前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, FlaubertForMultipleChoice
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = FlaubertForMultipleChoice.from_pretrained("flaubert/flaubert_base_cased")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."
>>> labels = torch.tensor(0).unsqueeze(0)  # choice0 is correct (according to Wikipedia ;)), batch size 1

>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="pt", padding=True)
>>> outputs = model(**{k: v.unsqueeze(0) for k, v in encoding.items()}, labels=labels)  # batch size is 1

>>> # the linear classifier still needs to be trained
>>> loss = outputs.loss
>>> logits = outputs.logits

FlaubertForTokenClassification

class transformers.FlaubertForTokenClassification

<来源>

( config )

参数

  • config(FlaubertConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

Flaubert 模型,顶部带有一个标记分类头(隐藏状态输出的顶部线性层),例如用于命名实体识别(NER)任务。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

<来源>

( input_ids: Optional = None attention_mask: Optional = None langs: Optional = None token_type_ids: Optional = None position_ids: Optional = None lengths: Optional = None cache: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)— 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()获取详细信息。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)torch.FloatTensor可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中:

    • 1 表示未被掩码的标记,

    • 0 表示被掩码的标记。

    什么是注意力掩码?

  • token_type_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]中:

    • 0 对应于句子 A标记,

    • 1 对应于句子 B标记。

    什么是标记类型 ID?

  • position_ids(形状为(batch_size, sequence_length)torch.LongTensor可选)— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

    什么是位置 ID?

  • lengths(形状为(batch_size,)torch.LongTensor可选)— 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用attention_mask获得相同的结果(见上文),这里保留以保持兼容性。索引选择在[0, ..., input_ids.size(-1)]中:

  • cacheDict[str, torch.FloatTensor]可选)— 包含由模型计算的预计算隐藏状态(注意力块中的键和值)的torch.FloatTensor字符串字典(请参见下面的cache输出)。可用于加速顺序解码。在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask(形状为(num_heads,)(num_layers, num_heads)torch.FloatTensor可选)— 用于使自注意力模块的选定头部失效的掩码。在[0, 1]中选择的掩码值:

    • 1 表示头部“未屏蔽”,

    • 0 表示头部“已屏蔽”。

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor可选)— 可选地,您可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为关联向量,而不是模型的内部嵌入查找矩阵,则这很有用。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states

  • return_dictbool可选)— 是否返回 ModelOutput 而不是普通元组。

  • labels(形状为(batch_size, sequence_length)torch.LongTensor可选)— 用于计算标记分类损失的标签。索引应在[0, ..., config.num_labels - 1]中。

返回

transformers.modeling_outputs.TokenClassifierOutput 或tuple(torch.FloatTensor)

transformers.modeling_outputs.TokenClassifierOutput 或torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False时)包含根据配置(FlaubertConfig)和输入的各种元素。

  • loss(形状为(1,)torch.FloatTensor可选,当提供labels时返回)— 分类损失。

  • logits(形状为(batch_size, sequence_length, config.num_labels)torch.FloatTensor)— 分类分数(SoftMax 之前)。

  • hidden_statestuple(torch.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回)— torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出+每个层的输出)的形状为(batch_size, sequence_length, hidden_size)

    模型在每个层的输出以及可选的初始嵌入输出的隐藏状态。

  • attentionstuple(torch.FloatTensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回)— torch.FloatTensor元组(每个层一个)的形状为(batch_size, num_heads, sequence_length, sequence_length)

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

FlaubertForTokenClassification 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是调用此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, FlaubertForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = FlaubertForTokenClassification.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss

FlaubertForQuestionAnsweringSimple

class transformers.FlaubertForQuestionAnsweringSimple

< source >

( config )

参数

  • config (FlaubertConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。

Flaubert 模型在顶部具有一个用于提取式问答任务(如 SQuAD)的跨度分类头(在隐藏状态输出的顶部有一个线性层,用于计算 span start logitsspan end logits)。

此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

此模型还是一个 PyTorch torch.nn.Module 子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。

forward

< source >

( input_ids: Optional = None attention_mask: Optional = None langs: Optional = None token_type_ids: Optional = None position_ids: Optional = None lengths: Optional = None cache: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

    什么是输入 ID?

  • attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在 [0, 1]:

    • 1 表示未被遮蔽的标记,

    • 0 表示被遮蔽的标记。

    什么是注意力掩码?

  • token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 段标记索引,用于指示输入的第一部分和第二部分。索引选择在 [0, 1]:

    • 0 对应于 句子 A 标记,

    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • lengths (torch.LongTensor of shape (batch_size,), optional) — 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用 attention_mask 来获得相同的结果(见上文),这里保留是为了兼容性。所选索引范围为 [0, ..., input_ids.size(-1)]:

  • cache (Dict[str, torch.FloatTensor], optional) — 包含由模型计算的预计算隐藏状态(关键和值在注意力块中)的 torch.FloatTensor 字典字符串(请参见下面的 cache 输出)。可用于加速顺序解码。在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部失效的掩码。掩码值选择在 [0, 1]:

    • 1 表示头部未被遮蔽,

    • 0 表示头部被遮蔽。

  • inputs_embeds (torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)可选) — 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions

  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states

  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通元组。

  • start_positions (torch.LongTensor,形状为(batch_size,)可选) — 用于计算标记跨度起始位置的位置(索引)的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内计算损失。

  • end_positions (torch.LongTensor,形状为(batch_size,)可选) — 用于计算标记跨度结束位置的位置(索引)的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内计算损失。

返回

transformers.modeling_outputs.QuestionAnsweringModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个torch.FloatTensor元组(如果传递return_dict=Falseconfig.return_dict=False)包括根据配置(FlaubertConfig)和输入的不同元素。

  • loss (torch.FloatTensor,形状为(1,)可选,当提供labels时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。

  • start_logits (torch.FloatTensor,形状为(batch_size, sequence_length)) — 跨度起始分数(SoftMax 之前)。

  • end_logits (torch.FloatTensor,形状为(batch_size, sequence_length)) — 跨度结束分数(SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出加上每层的输出)。

    模型在每一层输出处的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor元组(每层一个)。

    注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。

FlaubertForQuestionAnsweringSimple 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, FlaubertForQuestionAnsweringSimple
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = FlaubertForQuestionAnsweringSimple.from_pretrained("flaubert/flaubert_base_cased")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss

FlaubertForQuestionAnswering

class transformers.FlaubertForQuestionAnswering

< source >

( config )

forward

< source >

( input_ids: Optional = None attention_mask: Optional = None langs: Optional = None token_type_ids: Optional = None position_ids: Optional = None lengths: Optional = None cache: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None is_impossible: Optional = None cls_index: Optional = None p_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.flaubert.modeling_flaubert.FlaubertForQuestionAnsweringOutput or tuple(torch.FloatTensor)

参数

  • input_ids(形状为(batch_size, sequence_length)torch.LongTensor)— 词汇表中输入序列标记的索引。

返回

transformers.models.flaubert.modeling_flaubert.FlaubertForQuestionAnsweringOutputtuple(torch.FloatTensor)

一个transformers.models.flaubert.modeling_flaubert.FlaubertForQuestionAnsweringOutput或一个torch.FloatTensor元组(如果传递了return_dict=False或当config.return_dict=False时)包含根据配置(FlaubertConfig)和输入的各种元素。

  • config (FlaubertConfig):模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。

FlaubertForQuestionAnswering 的前向方法,覆盖了__call__特殊方法。

虽然前向传递的方法需要在这个函数内定义,但应该在之后调用Module实例,而不是这个,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。

使用SquadHead的问答模型输出的基类。

例子:

>>> from transformers import XLMTokenizer, XLMForQuestionAnswering
>>> import torch

>>> tokenizer = XLMTokenizer.from_pretrained("xlm-mlm-en-2048")
>>> model = XLMForQuestionAnswering.from_pretrained("xlm-mlm-en-2048")

>>> input_ids = torch.tensor(tokenizer.encode("Hello, my dog is cute", add_special_tokens=True)).unsqueeze(
...     0
... )  # Batch size 1
>>> start_positions = torch.tensor([1])
>>> end_positions = torch.tensor([3])

>>> outputs = model(input_ids, start_positions=start_positions, end_positions=end_positions)
>>> loss = outputs.loss

TensorFlow 隐藏 TensorFlow 内容

TFFlaubertModel

class transformers.TFFlaubertModel

< source >

( config *inputs **kwargs )

参数

  • config (FlaubertConfig) — 模型的所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。

裸的 Flaubert 模型变压器,输出原始隐藏状态,没有特定的头部。

这个模型继承自 TFPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

这个模型也是一个 tf.keras.Model 子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入:

  • 所有输入都作为关键字参数(类似于 PyTorch 模型),或者

  • 所有输入都作为第一个位置参数的列表、元组或字典。

支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于有了这种支持,当使用 model.fit() 等方法时,您应该可以“只需工作” - 只需以 model.fit() 支持的任何格式传递您的输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 Keras Functional API 创建自己的层或模型时,有三种可能性可以用来收集第一个位置参数中的所有输入张量:

  • 一个仅包含 input_ids 的单个张量,没有其他内容:model(input_ids)

  • 一个长度不同的列表,其中包含一个或多个输入张量,按照文档字符串中给定的顺序:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])

  • 一个包含与文档字符串中给定的输入名称相关联的一个或多个输入张量的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意,当使用子类化创建模型和层时,您无需担心这些内容,因为您可以像对待任何其他 Python 函数一样传递输入!

call

<来源>

( input_ids: np.ndarray | tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None langs: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None lengths: np.ndarray | tf.Tensor | None = None cache: Optional[Dict[str, tf.Tensor]] = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFBaseModelOutput or tuple(tf.Tensor)

参数

  • input_ids (Numpy arraytf.Tensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。 有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。

    什么是输入 ID?

  • attention_mask (Numpy arraytf.Tensor,形状为 (batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意力的掩码。 选择在 [0, 1] 中的掩码值:

    • 对于未被屏蔽的标记,为 1

    • 对于被屏蔽的标记,为 0

    什么是注意力掩码?

  • langs (tf.TensorNumpy array,形状为 (batch_size, sequence_length)可选) — 用于指示输入中每个标记的语言的并行标记序列。 索引是语言 ID,可以通过模型配置中提供的两个转换映射从语言名称中获取(仅适用于多语言模型)。 更确切地说,语言名称到语言 ID 映射在 model.config.lang2id 中(这是一个字符串到整数的字典),语言 ID 到语言名称 映射在 model.config.id2lang 中(整数到字符串的字典)。

    请参阅多语言文档中详细的使用示例。

  • token_type_ids (tf.TensorNumpy array,形状为 (batch_size, sequence_length)可选) — 段标记索引,指示输入的第一部分和第二部分。 索引在 [0, 1] 中选择:

    • 0 对应于 句子 A 标记,

    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids (tf.TensorNumpy array,形状为 (batch_size, sequence_length)可选) — 每个输入序列标记在位置嵌入中的位置的索引。 选择在范围 [0, config.max_position_embeddings - 1] 中。

    什么是位置 ID?

  • lengths (tf.TensorNumpy array,形状为(batch_size,)可选) — 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用attention_mask获得相同的结果(见上文),这里保留以保持兼容性。所选索引在[0, ..., input_ids.size(-1)]中:

  • cache (Dict[str, tf.Tensor]可选) — 包含由模型计算的预计算隐藏状态(注意力块中的键和值)的字符串到tf.FloatTensor的字典。可用于加速顺序解码。

    字典对象将在前向传递期间就地修改以添加新计算的隐藏状态。

  • head_mask (Numpy array或形状为(num_heads,)(num_layers, num_heads)tf.Tensor可选) — 用于使自注意力模块中选择的头部失效的掩码。掩码值在[0, 1]中选择:

    • 1表示头部未被掩码

    • 0表示头部被掩码

  • inputs_embeds (形状为(batch_size, sequence_length, hidden_size)tf.Tensor,*可选*) — 可选地,您可以选择直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids`索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。

  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。

  • return_dict (bool可选) — 是否返回一个 ModelOutput 而不是一个普通元组。此参数可在急切模式下使用,在图模式下该值将始终设置为 True。

  • training (bool可选,默认为False) — 是否在训练模式下使用模型(一些模块如 dropout 模块在训练和评估之间有不同的行为)。

返回

transformers.modeling_tf_outputs.TFBaseModelOutput 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFBaseModelOutput 或一个tf.Tensor元组(如果传递return_dict=Falseconfig.return_dict=False时)包含根据配置(FlaubertConfig)和输入的各种元素。

  • last_hidden_state (形状为(batch_size, sequence_length, hidden_size)tf.Tensor`) — 模型最后一层的隐藏状态序列。

  • hidden_states (tuple(tf.FloatTensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。

    模型在每个层的输出以及初始嵌入输出的隐藏状态。

  • attentions (tuple(tf.Tensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每个层一个)。

    在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

TFFlaubertModel 的前向方法,覆盖了__call__特殊方法。

尽管前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFFlaubertModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = TFFlaubertModel.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)

>>> last_hidden_states = outputs.last_hidden_state

TFFlaubertWithLMHeadModel

class transformers.TFFlaubertWithLMHeadModel

<来源>

( config *inputs **kwargs )

参数

  • config(FlaubertConfig)—模型的所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

Flaubert 模型变压器,顶部带有语言建模头(线性层,其权重与输入嵌入绑定)。

此模型继承自 TFPreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

此模型也是tf.keras.Model的子类。将其用作常规 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入:

  • 将所有输入作为关键字参数(类似于 PyTorch 模型),或者

  • 将所有输入作为列表、元组或字典的第一个位置参数。

支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,在使用model.fit()等方法时,应该“只需工作” - 只需传递您的输入和标签,以任何model.fit()支持的格式!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctionalAPI 创建自己的层或模型时,有三种可能性可用于收集第一个位置参数中的所有输入张量:

  • 只有一个张量,其中只有input_ids而没有其他内容:model(input_ids)

  • 一个长度可变的列表,其中包含一个或多个与文档字符串中给定的顺序相对应的输入张量:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])

  • 一个字典,其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意,当使用子类化创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!

call

<来源>

( input_ids: np.ndarray | tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None langs: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None lengths: np.ndarray | tf.Tensor | None = None cache: Optional[Dict[str, tf.Tensor]] = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.models.flaubert.modeling_tf_flaubert.TFFlaubertWithLMHeadModelOutput or tuple(tf.Tensor)

参数

  • input_ids(形状为(batch_size, sequence_length)Numpy数组或tf.Tensor)—词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

    输入 ID 是什么?

  • attention_mask(形状为(batch_size, sequence_length)Numpy数组或tf.Tensor可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选定在[0, 1]范围内:

    • 1表示未被屏蔽的标记,

    • 0表示被屏蔽的标记。

    注意掩码是什么?

  • langs(形状为(batch_size, sequence_length)tf.TensorNumpy数组,可选)— 用于指示输入中每个标记的语言的并行标记序列。语言 ID 可以通过模型配置中提供的两个转换映射从语言名称中获取(仅适用于多语言模型)。更准确地说,语言名称到语言 ID映射在model.config.lang2id中(这是一个字符串到整数的字典),语言 ID 到语言名称映射在model.config.id2lang中(整数到字符串的字典)。

    在多语言文档中详细说明了用法示例。

  • token_type_ids(形状为(batch_size, sequence_length)tf.TensorNumpy数组,可选)— 指示输入的第一部分和第二部分的段标记索引。索引选定在[0, 1]范围内:

    • 0对应于句子 A的标记,

    • 1对应于句子 B的标记。

    令牌类型 ID 是什么?

  • position_ids(形状为(batch_size, sequence_length)tf.TensorNumpy数组,可选)— 每个输入序列标记在位置嵌入中的位置索引。选定范围在[0, config.max_position_embeddings - 1]内。

    位置 ID 是什么?

  • lengths(形状为(batch_size,)tf.TensorNumpy数组,可选)— 每个句子的长度,可用于避免在填充标记索引上执行注意力。您还可以使用attention_mask获得相同的结果(请参见上文),这里保留以确保兼容性。选定的索引在[0, ..., input_ids.size(-1)]内:

  • cacheDict[str, tf.Tensor]可选)— 包含由模型计算的预计算隐藏状态(注意力块中的键和值)的字符串到tf.FloatTensor的字典。可用于加速顺序解码。

    在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask(形状为(num_heads,)(num_layers, num_heads)Numpy数组或tf.Tensor可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值选定在[0, 1]范围内:

    • 1表示头部未被屏蔽,

    • 0表示被屏蔽的头部。

  • inputs_embeds(形状为(batch_size, sequence_length, hidden_size)tf.Tensor可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望更好地控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。

  • output_attentionsbool可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。

  • output_hidden_statesbool可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。

  • return_dictbool可选)— 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式下该值将始终设置为 True。

  • trainingbool可选,默认为False)- 是否在训练模式下使用模型(一些模块如 dropout 模块在训练和评估之间有不同的行为)。

返回

transformers.models.flaubert.modeling_tf_flaubert.TFFlaubertWithLMHeadModelOutputtuple(tf.Tensor)

一个transformers.models.flaubert.modeling_tf_flaubert.TFFlaubertWithLMHeadModelOutput或一个tf.Tensor元组(如果传递return_dict=False或当config.return_dict=False时)包含根据配置(FlaubertConfig)和输入的各种元素。

  • logits(形状为(batch_size, sequence_length, config.vocab_size)tf.Tensor)- 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。

  • hidden_statestuple(tf.Tensor)可选,当传递output_hidden_states=True或当config.output_hidden_states=True时返回)- 形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入的输出 + 一个用于每层的输出)。

    每层输出的隐藏状态加上初始嵌入输出。

  • attentionstuple(tf.Tensor)可选,当传递output_attentions=True或当config.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

TFFlaubertWithLMHeadModel 的前向方法,覆盖__call__特殊方法。

虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例,而不是在此之后调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFFlaubertWithLMHeadModel
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = TFFlaubertWithLMHeadModel.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> logits = outputs.logits

TFFlaubertForSequenceClassification

class transformers.TFFlaubertForSequenceClassification

< source >

( config *inputs **kwargs )

参数

  • config(FlaubertConfig)- 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

Flaubert 模型在顶部具有序列分类/回归头(在池化输出的顶部有一个线性层),例如用于 GLUE 任务。

此模型继承自 TFPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存,调整输入嵌入,修剪头等)。

此模型也是tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有事项。

transformers中的 TensorFlow 模型和层接受两种格式的输入:

  • 将所有输入作为关键字参数(类似于 PyTorch 模型),或

  • 将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于有了这种支持,当使用model.fit()等方法时,您应该可以“轻松”地工作 - 只需以model.fit()支持的任何格式传递您的输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,比如在使用 KerasFunctional API 创建自己的层或模型时,有三种可能性可以用来收集第一个位置参数中的所有输入张量:

  • 一个仅包含input_ids的单个张量,没有其他内容:model(input_ids)

  • 一个长度可变的列表,其中包含一个或多个按照文档字符串中给定的顺序的输入张量:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])

  • 一个字典,其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意,当使用子类化创建模型和层时,您不需要担心这些问题,因为您可以像将输入传递给任何其他 Python 函数一样传递输入!

call

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None langs: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None lengths: np.ndarray | tf.Tensor | None = None cache: Optional[Dict[str, tf.Tensor]] = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFSequenceClassifierOutput or tuple(tf.Tensor)

参数

  • input_ids(形状为(batch_size, sequence_length)Numpy 数组tf.Tensor) - 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

    输入 ID 是什么?

  • attention_mask(形状为(batch_size, sequence_length)Numpy 数组tf.Tensor可选) - 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中:

    • 对于未被掩码的标记为1

    • 对于被掩码的标记为0

    注意力掩码是什么?

  • langs(形状为(batch_size, sequence_length)tf.TensorNumpy 数组可选) - 用于指示输入中每个标记的语言的并行标记序列。索引是语言 ID,可以通过模型配置中提供的两个转换映射从语言名称中获取(仅适用于多语言模型)。更确切地说,语言名称到语言 ID映射在model.config.lang2id中(这是一个字符串到整数的字典),语言 ID 到语言名称映射在model.config.id2lang中(整数到字符串的字典)。

    请参阅多语言文档中详细的使用示例。

  • token_type_ids(形状为(batch_size, sequence_length)tf.TensorNumpy 数组可选) - 段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]中:

    • 0对应于句子 A标记,

    • 1对应于句子 B标记。

    令牌类型 ID 是什么?

  • position_ids(形状为(batch_size, sequence_length)tf.TensorNumpy 数组可选) - 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]

    位置 ID 是什么?

  • lengths (tf.Tensor或形状为(batch_size,)Numpy数组,optional) — 每个句子的长度,可用于避免在填充令牌索引上执行注意力。您也可以使用attention_mask获得相同的结果(请参见上文),这里保留以确保兼容性。在[0, ..., input_ids.size(-1)]中选择的索引:

  • cache (Dict[str, tf.Tensor], optional) — 包含预计算的隐藏状态(由模型计算的注意力块中的键和值)的字符串到tf.FloatTensor的字典。可用于加速顺序解码。

    在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask (Numpy数组或形状为(num_heads,)(num_layers, num_heads)tf.Tensoroptional) — 用于使自注意力模块的选定头部失效的掩码。掩码值在[0, 1]中选择:

    • 1表示头部是not masked

    • 0表示头部是masked

  • inputs_embeds (tf.Tensor,形状为(batch_size, sequence_length, hidden_size)optional) — 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这很有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions。此参数仅在急切模式下使用,在图模式下将使用配置中的值。

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式下将使用配置中的值。

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式下该值将始终设置为 True。

  • training (bool, optional, 默认为False) — 是否在训练模式下使用模型(某些模块如 dropout 模块在训练和评估之间有不同的行为)。

  • labels (tf.Tensor,形状为(batch_size,)optional) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]中。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。

返回

transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或一个tf.Tensor元组(如果传递return_dict=Falseconfig.return_dict=False)包含各种元素,取决于配置(FlaubertConfig)和输入。

  • loss (tf.Tensor,形状为(batch_size, )optional,当提供labels时返回) — 分类(如果config.num_labels==1则为回归)损失。

  • logits (tf.Tensor,形状为(batch_size, config.num_labels)) — 分类(如果config.num_labels==1则为回归)得分(SoftMax 之前)。

  • hidden_states (tuple(tf.Tensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。

    每层输出的模型隐藏状态加上初始嵌入输出。

  • attentionstuple(tf.Tensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每层一个)。

    在自注意力头中用于计算加权平均值的注意力 softmax 之后的注意力权重。

TFFlaubertForSequenceClassification 的前向方法,覆盖了__call__特殊方法。

尽管前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFFlaubertForSequenceClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = TFFlaubertForSequenceClassification.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")

>>> logits = model(**inputs).logits

>>> predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = TFFlaubertForSequenceClassification.from_pretrained("flaubert/flaubert_base_cased", num_labels=num_labels)

>>> labels = tf.constant(1)
>>> loss = model(**inputs, labels=labels).loss

TFFlaubertForMultipleChoice

class transformers.TFFlaubertForMultipleChoice

<来源>

( config *inputs **kwargs )

参数

  • config(FlaubertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

在顶部带有多选分类头的 Flaubert 模型(池化输出上方的线性层和 softmax),例如用于 RocStories/SWAG 任务。

此模型继承自 TFPreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。

此模型还是一个tf.keras.Model子类。将其用作常规 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有信息。

transformers中的 TensorFlow 模型和层接受两种格式的输入:

  • 将所有输入作为关键字参数(如 PyTorch 模型),或

  • 将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于有此支持,当使用model.fit()等方法时,应该可以“正常工作” - 只需传递您的输入和标签,以任何model.fit()支持的格式!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctionalAPI 创建自己的层或模型时,您可以使用三种可能性来收集所有输入张量放在第一个位置参数中:

  • 只有一个input_ids张量,没有其他内容:model(input_ids)

  • 一个长度可变的列表,其中包含一个或多个按照文档字符串中给定顺序的输入张量:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])

  • 一个字典,其中包含一个或多个与文档字符串中给定输入名称相关联的输入张量:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意,当使用子类化创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!

call

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None langs: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None lengths: np.ndarray | tf.Tensor | None = None cache: Optional[Dict[str, tf.Tensor]] = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFMultipleChoiceModelOutput or tuple(tf.Tensor)

参数

  • input_ids (Numpy array or tf.Tensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

    什么是输入 ID?

  • attention_mask (Numpy array or tf.Tensor of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中:

    • 对于未被屏蔽的标记,1

    • 对于被屏蔽的标记,0

    什么是注意力掩码?

  • langs (tf.Tensor or Numpy array of shape (batch_size, sequence_length), optional) — 用于指示输入中每个标记的语言的并行标记序列。索引是语言 ID,可以通过模型配置中提供的两个转换映射从语言名称中获取(仅适用于多语言模型)。更准确地说,语言名称到语言 ID映射在model.config.lang2id中(这是一个字符串到整数的字典),语言 ID 到语言名称映射在model.config.id2lang中(整数到字符串的字典)。

    请参阅多语言文档中详细的使用示例。

  • token_type_ids (tf.Tensor or Numpy array of shape (batch_size, sequence_length), optional) — 段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]中选择:

    • 0对应于句子 A标记,

    • 1对应于句子 B标记。

    什么是标记类型 ID?

  • position_ids (tf.Tensor or Numpy array of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

    什么是位置 ID?

  • lengths (tf.Tensor or Numpy array of shape (batch_size,), optional) — 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用attention_mask获得相同的结果(请参见上文),这里保留以保持兼容性。选择的索引在[0, ..., input_ids.size(-1)]中:

  • cache (Dict[str, tf.Tensor], optional) — 包含预先计算的隐藏状态(键和值在注意力块中)的字符串到tf.FloatTensor的字典,由模型计算(参见下面的cache输出)。可用于加速顺序解码。

    在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask (Numpy array or tf.Tensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中的选定头部失效的掩码。掩码值选择在[0, 1]中:

    • 1表示头部未被屏蔽,

    • 0表示头部被屏蔽。

  • inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望更多地控制如何将input_ids索引转换为相关向量,而不是使用模型内部的嵌入查找矩阵,这将非常有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回的张量中的attentions。此参数仅在急切模式下可用,在图模式中将使用配置中的值。

  • output_hidden_statesbool可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式下将使用配置中的值。

  • return_dictbool可选) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式下该值将始终设置为 True。

  • trainingbool可选,默认为False) — 是否在训练模式下使用模型(一些模块如 dropout 模块在训练和评估之间有不同的行为)。

返回

transformers.modeling_tf_outputs.TFMultipleChoiceModelOutput 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFMultipleChoiceModelOutput 或一个tf.Tensor元组(如果传递了return_dict=False或当config.return_dict=False时)包括根据配置(FlaubertConfig)和输入的各种元素。

  • loss(形状为(batch_size, )tf.Tensor可选,当提供labels时返回) — 分类损失。

  • logits(形状为(batch_size, num_choices)tf.Tensor) — num_choices是输入张量的第二维度。(参见上面的input_ids)。

    SoftMax 之前的分类分数。

  • hidden_statestuple(tf.Tensor)可选,当传递output_hidden_states=True或当config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。

    每个层的模型的隐藏状态加上初始嵌入输出。

  • attentionstuple(tf.Tensor)可选,当传递output_attentions=True或当config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每个层一个)。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

TFFlaubertForMultipleChoice 的前向方法,覆盖了__call__特殊方法。

尽管前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFFlaubertForMultipleChoice
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = TFFlaubertForMultipleChoice.from_pretrained("flaubert/flaubert_base_cased")

>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."

>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="tf", padding=True)
>>> inputs = {k: tf.expand_dims(v, 0) for k, v in encoding.items()}
>>> outputs = model(inputs)  # batch size is 1

>>> # the linear classifier still needs to be trained
>>> logits = outputs.logits

TFFlaubertForTokenClassification

class transformers.TFFlaubertForTokenClassification

<来源>

( config *inputs **kwargs )

参数

  • config(FlaubertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。

在顶部带有标记分类头的 Flaubert 模型(隐藏状态输出顶部的线性层),例如用于命名实体识别(NER)任务。

此模型继承自 TFPreTrainedModel。请查看超类文档,了解库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

此模型还是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有内容。

transformers中的 TensorFlow 模型和层接受两种格式的输入:

  • 将所有输入作为关键字参数(类似于 PyTorch 模型),

  • 将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是,当将输入传递给模型和层时,Keras 方法更喜欢这种格式。由于有了这种支持,当使用model.fit()等方法时,应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签即可!但是,如果您想在 Keras 方法之外使用第二种格式,比如在使用 KerasFunctionalAPI 创建自己的层或模型时,有三种可能性可以用来收集所有输入张量在第一个位置参数中:

  • 仅使用input_ids一个张量,没有其他内容:model(input_ids)

  • 一个变长列表,其中包含一个或多个输入张量,按照文档字符串中给定的顺序:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])

  • 一个字典,其中包含与文档字符串中给定的输入名称相关联的一个或多个输入张量:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意,当使用子类化创建模型和层时,您无需担心这些内容,因为您可以像对待其他 Python 函数一样传递输入!

call

< source >

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None langs: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None lengths: np.ndarray | tf.Tensor | None = None cache: Optional[Dict[str, tf.Tensor]] = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFTokenClassifierOutput or tuple(tf.Tensor)

参数

  • input_ids(形状为(batch_size, sequence_length)Numpy数组或tf.Tensor)- 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)Numpy数组或tf.Tensor可选)- 用于避免在填充标记索引上执行注意力的掩码。选择在[0, 1]中的掩码值:

    • 对于未被masked的标记,使用1

    • 对于被masked的标记,使用0

    什么是注意力掩码?

  • langs(形状为(batch_size, sequence_length)tf.TensorNumpy数组,可选)- 用于指示输入中每个标记的语言的并行标记序列。索引是语言 ID,可以通过模型配置中提供的两个转换映射从语言名称中获取(仅适用于多语言模型)。更准确地说,语言名称到语言 ID映射在model.config.lang2id中(这是一个字符串到整数的字典),语言 ID 到语言名称映射在model.config.id2lang中(整数到字符串的字典)。

    请参阅多语言文档中详细的用法示例。

  • token_type_ids (tf.TensorNumpy array of shape (batch_size, sequence_length), optional) — 指示输入的第一部分和第二部分的段标记索引。索引选择在 [0, 1] 范围内:

    • 0 对应于 句子 A 标记,

    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids (tf.TensorNumpy array of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]

    什么是位置 ID?

  • lengths (tf.TensorNumpy array of shape (batch_size,), optional) — 每个句子的长度,可用于避免在填充标记索引上执行注意力。您还可以使用 attention_mask 获得相同的结果(见上文),这里保留了兼容性索引选择在 [0, ..., input_ids.size(-1)] 范围内:

  • cache (Dict[str, tf.Tensor], optional) — 包含预先计算的隐藏状态(注意力块中的键和值)的字符串到 tf.FloatTensor 的字典,由模型计算(请参见下面的 cache 输出)。可用于加速顺序解码。

    字典对象将在前向传递过程中被就地修改,以添加新计算的隐藏状态。

  • head_mask (Numpy arraytf.Tensor of shape (num_heads,)(num_layers, num_heads), optional) — 用于使自注意力模块的选定头部失效的掩码。掩码值选择在 [0, 1] 范围内:

    • 1 表示头部未被屏蔽,

    • 0 表示头部被屏蔽。

  • inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传递嵌入表示而不是传递 input_ids。如果您希望更多地控制如何将 input_ids 索引转换为相关向量,这将很有用,而不是使用模型的内部嵌入查找矩阵。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的 attentions。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的 hidden_states。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式下该值将始终设置为 True。

  • training (bool, optional, 默认为 False) — 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间有不同的行为)。

  • labels (tf.Tensor of shape (batch_size, sequence_length), optional) — 用于计算标记分类损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。

返回

transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tf.Tensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时)包含根据配置(FlaubertConfig)和输入的各种元素。

  • loss (tf.Tensor of shape (n,), optional, 其中 n 是未屏蔽标签的数量,在提供 labels 时返回) — 分类损失。

  • logits(形状为(batch_size, sequence_length, config.num_labels)tf.Tensor) — 分类分数(SoftMax 之前)。

  • hidden_statestuple(tf.Tensor)可选,当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入的输出 + 一个用于每一层的输出)。

    模型在每一层的输出处的隐藏状态以及初始嵌入输出。

  • attentionstuple(tf.Tensor)可选,当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

TFFlaubertForTokenClassification 的前向方法,覆盖了__call__特殊方法。

尽管前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFFlaubertForTokenClassification
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = TFFlaubertForTokenClassification.from_pretrained("flaubert/flaubert_base_cased")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="tf"
... )

>>> logits = model(**inputs).logits
>>> predicted_token_class_ids = tf.math.argmax(logits, axis=-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t] for t in predicted_token_class_ids[0].numpy().tolist()]
>>> labels = predicted_token_class_ids
>>> loss = tf.math.reduce_mean(model(**inputs, labels=labels).loss)

TFFlaubertForQuestionAnsweringSimple

class transformers.TFFlaubertForQuestionAnsweringSimple

<来源>

( config *inputs **kwargs )

参数

  • config(FlaubertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。

Flaubert 模型,顶部带有用于提取式问答任务(如 SQuAD)的跨度分类头(在隐藏状态输出之上的线性层,用于计算跨度起始 logits跨度结束 logits)。

该模型继承自 TFPreTrainedModel。查看超类文档,了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。

该模型也是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有内容。

transformers中的 TensorFlow 模型和层接受两种格式的输入:

  • 将所有输入作为关键字参数(类似于 PyTorch 模型),或者

  • 将所有输入作为列表、元组或字典放在第一个位置参数中。

支持第二种格式的原因是,当将输入传递给模型和层时,Keras 方法更喜欢这种格式。由于这种支持,当使用model.fit()等方法时,应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,比如在使用 KerasFunctional API 创建自己的层或模型时,有三种可能性可以用来收集第一个位置参数中的所有输入张量:

  • 只有包含input_ids且没有其他内容的单个张量:model(input_ids)

  • 一个长度不定的列表,其中包含一个或多个按照文档字符串中给定顺序的输入张量:model([input_ids, attention_mask])model([input_ids, attention_mask, token_type_ids])

  • 一个带有与文档字符串中给定的输入名称相关联的一个或多个输入张量的字典:model({"input_ids": input_ids, "token_type_ids": token_type_ids})

请注意,当使用子类化创建模型和层时,您无需担心任何这些内容,因为您可以像对待任何其他 Python 函数一样传递输入!

call

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None langs: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None lengths: np.ndarray | tf.Tensor | None = None cache: Optional[Dict[str, tf.Tensor]] = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None start_positions: np.ndarray | tf.Tensor | None = None end_positions: np.ndarray | tf.Tensor | None = None training: bool = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput or tuple(tf.Tensor)

参数

  • input_ids(形状为(batch_size, sequence_length)Numpy arraytf.Tensor) — 词汇表中输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。

    什么是输入 ID?

  • attention_mask(形状为(batch_size, sequence_length)Numpy arraytf.Tensor可选) — 用于避免在填充标记索引上执行注意力。掩码值在[0, 1]中选择:

    • 1 表示未被遮蔽的标记,

    • 0 表示被遮蔽的标记。

    什么是注意力掩码?

  • langs(形状为(batch_size, sequence_length)tf.TensorNumpy array可选) — 用于指示输入中每个标记的语言的并行标记序列。索引是语言 ID,可以通过模型配置中提供的两个转换映射从语言名称中获取(仅适用于多语言模型)。更准确地说,语言名称到语言 ID 映射在 model.config.lang2id 中(这是一个字符串到整数的字典),语言 ID 到语言名称 映射在 model.config.id2lang 中(整数到字符串的字典)。

    请参阅多语言文档中详细的使用示例。

  • token_type_ids(形状为(batch_size, sequence_length)tf.TensorNumpy array可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]中选择:

    • 0 对应于 句子 A 标记,

    • 1 对应于 句子 B 标记。

    什么是标记类型 ID?

  • position_ids(形状为(batch_size, sequence_length)tf.TensorNumpy array可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。

    什么是位置 ID?

  • lengths(形状为(batch_size,)tf.TensorNumpy array可选) — 每个句子的长度,可用于避免在填充标记索引上执行注意力。您也可以使用 attention_mask 获得相同的结果(见上文),这里保留以保持兼容性。在[0, ..., input_ids.size(-1)]中选择的索引:

  • cacheDict[str, tf.Tensor]可选) — 包含模型计算的预计算隐藏状态(注意力块中的键和值)的字符串到 tf.FloatTensor 的字典。可用于加速顺序解码。

    在前向传递期间,字典对象将被就地修改以添加新计算的隐藏状态。

  • head_mask(形状为(num_heads,)(num_layers, num_heads)Numpy arraytf.Tensor可选) — 用于使自注意力模块中选定头部失效的掩码。掩码值在[0, 1]中选择:

    • 1 表示头部未被遮蔽,

    • 0 表示头部被遮蔽。

  • inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。

  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅在急切模式下使用,在图模式中将使用配置中的值。

  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式中将使用配置中的值。

  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式中该值将始终设置为 True。

  • training (bool, optional, 默认为False) — 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间有不同的行为)。

  • start_positions (tf.Tensor of shape (batch_size,), optional) — 用于计算标记分类损失的标记(索引)起始位置的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会计入损失计算。

  • end_positions (tf.Tensor of shape (batch_size,), optional) — 用于计算标记分类损失的标记(索引)结束位置的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会计入损失计算。

返回

transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或一个tf.Tensor元组(如果传递return_dict=Falseconfig.return_dict=False时)包含根据配置(FlaubertConfig)和输入的不同元素。

  • loss (tf.Tensor of shape (batch_size, ), optional, 当提供start_positionsend_positions时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。

  • start_logits (tf.Tensor of shape (batch_size, sequence_length)) — 跨度起始分数(SoftMax 之前)。

  • end_logits (tf.Tensor of shape (batch_size, sequence_length)) — 跨度结束分数(SoftMax 之前)。

  • hidden_states (tuple(tf.Tensor), optional, 当传递output_hidden_states=Trueconfig.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)tf.Tensor元组(一个用于嵌入的输出 + 一个用于每一层的输出)。

    模型在每一层输出的隐藏状态以及初始嵌入输出。

  • attentions (tuple(tf.Tensor), optional, 当传递output_attentions=Trueconfig.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)tf.Tensor元组(每一层一个)。

    注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。

TFFlaubertForQuestionAnsweringSimple 的前向方法重写了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是在此之后调用,因为前者负责运行前处理和后处理步骤,而后者则默默地忽略它们。

示例:

>>> from transformers import AutoTokenizer, TFFlaubertForQuestionAnsweringSimple
>>> import tensorflow as tf

>>> tokenizer = AutoTokenizer.from_pretrained("flaubert/flaubert_base_cased")
>>> model = TFFlaubertForQuestionAnsweringSimple.from_pretrained("flaubert/flaubert_base_cased")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="tf")
>>> outputs = model(**inputs)

>>> answer_start_index = int(tf.math.argmax(outputs.start_logits, axis=-1)[0])
>>> answer_end_index = int(tf.math.argmax(outputs.end_logits, axis=-1)[0])

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> # target is "nice puppet"
>>> target_start_index = tf.constant([14])
>>> target_end_index = tf.constant([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = tf.math.reduce_mean(outputs.loss)
posted @ 2024-06-22 14:20  绝不原创的飞龙  阅读(5)  评论(0编辑  收藏  举报