Transformers--4-37-中文文档-十六-

Transformers 4.37 中文文档（十六）

原文：huggingface.co/docs/transformers

ELECTRA

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/electra

概述

ELECTRA 模型是在论文ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators中提出的。ELECTRA 是一种新的预训练方法，训练两个 transformer 模型：生成器和鉴别器。生成器的作用是替换序列中的标记，因此被训练为掩码语言模型。我们感兴趣的鉴别器试图识别生成器在序列中替换的标记。

该论文的摘要如下：

掩码语言建模（MLM）预训练方法，如 BERT，通过用[MASK]替换一些标记来破坏输入，然后训练模型以重建原始标记。虽然它们在转移到下游 NLP 任务时产生良好的结果，但通常需要大量计算才能有效。作为替代方案，我们提出了一种更节约样本的预训练任务，称为替换标记检测。我们的方法不是掩盖输入，而是通过用从小型生成器网络中采样的可信替代品替换一些标记来破坏输入。然后，我们训练一个鉴别模型，该模型预测破坏输入中的每个标记是否被生成器样本替换。通过彻底的实验，我们证明这个新的预训练任务比 MLM 更有效，因为任务定义在所有输入标记上，而不仅仅是被掩盖的小子集。因此，我们的方法学习到的上下文表示大大优于在相同模型大小、数据和计算条件下学习到的 BERT。对于小模型，收益尤为明显；例如，我们在一个 GPU 上训练了 4 天的模型，在 GLUE 自然语言理解基准测试中胜过了使用 30 倍计算量训练的 GPT。我们的方法在规模上也表现良好，在使用不到他们计算量的情况下，与 RoBERTa 和 XLNet 表现相当，并且在使用相同计算量时胜过它们。

这个模型是由lysandre贡献的。原始代码可以在这里找到。

使用提示

ELECTRA 是预训练方法，因此对基础模型 BERT 几乎没有进行任何更改。唯一的变化是嵌入大小和隐藏大小的分离：嵌入大小通常较小，而隐藏大小较大。使用额外的投影层（线性）将嵌入从其嵌入大小投影到隐藏大小。在嵌入大小与隐藏大小相同时，不使用投影层。
ELECTRA 是一个使用另一个（较小）掩码语言模型预训练的 transformer 模型。输入文本被该语言模型损坏，该语言模型接受一个随机掩码的输入文本，并输出一个文本，其中 ELECTRA 必须预测哪个标记是原始的，哪个被替换了。就像 GAN 训练一样，小语言模型经过几步训练（但目标是原始文本，而不是像传统 GAN 设置中那样愚弄 ELECTRA 模型），然后 ELECTRA 模型经过几步训练。
使用Google Research 的实现保存的 ELECTRA 检查点包含生成器和鉴别器。转换脚本要求用户命名要导出的模型以正确的架构。一旦转换为 HuggingFace 格式，这些检查点可以加载到所有可用的 ELECTRA 模型中。这意味着鉴别器可以加载到 ElectraForMaskedLM 模型中，生成器可以加载到 ElectraForPreTraining 模型中（分类头将被随机初始化，因为在生成器中不存在）。

资源

文本分类任务指南
令牌分类任务指南
问答任务指南
因果语言建模任务指南
掩码语言建模任务指南
多项选择任务指南

模型名称	语言	描述
ernie-1.0-base-zh	中文	层数:12, 头数:12, 隐藏层:768
ernie-2.0-base-en	英语	层数:12, 头数:12, 隐藏层:768
ernie-2.0-large-en	英语	层数:24, 头数:16, 隐藏层:1024
ernie-3.0-base-zh	中文	层数:12, 头数:12, 隐藏层:768
ernie-3.0-medium-zh	中文	层数:6, 头数:12, 隐藏层:768
ernie-3.0-mini-zh	中文	层数:6, 头数:12, 隐藏层:384
ernie-3.0-micro-zh	中文	层数:4, 头数:12, 隐藏层:384
ernie-3.0-nano-zh	中文	层数:4, 头数:12, 隐藏层:312
ernie-health-zh	中文	层数:12, 头数:12, 隐藏层:768
ernie-gram-zh	中文	层数:12, 头数:12, 隐藏层:768

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-十六-

Transformers 4.37 中文文档（十六）

ELECTRA

概述

使用提示

资源

ElectraConfig

class transformers.ElectraConfig

ElectraTokenizer

class transformers.ElectraTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

ElectraTokenizerFast

class transformers.ElectraTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

ELECTRA 特定输出

class transformers.models.electra.modeling_electra.ElectraForPreTrainingOutput

ElectraModel

class transformers.ElectraModel

forward

ElectraForPreTraining

class transformers.ElectraForPreTraining

forward

ElectraForCausalLM

class transformers.ElectraForCausalLM

forward

ElectraForMaskedLM

class transformers.ElectraForMaskedLM

forward

ElectraForSequenceClassification

class transformers.ElectraForSequenceClassification

forward

ElectraForMultipleChoice

class transformers.ElectraForMultipleChoice

forward

ElectraForTokenClassification

class transformers.ElectraForTokenClassification

forward

ElectraForQuestionAnswering

class transformers.ElectraForQuestionAnswering

forward

TFElectraModel

class transformers.TFElectraModel

call

TFElectraForPreTraining

class transformers.TFElectraForPreTraining

call

TFElectraForMaskedLM

class transformers.TFElectraForMaskedLM

TFElectraForSequenceClassification

class transformers.TFElectraForSequenceClassification

call

TFElectraForMultipleChoice

class transformers.TFElectraForMultipleChoice

TFElectraForTokenClassification

class transformers.TFElectraForTokenClassification

call

TFElectraForQuestionAnswering

class transformers.TFElectraForQuestionAnswering

call

FlaxElectraModel

class transformers.FlaxElectraModel

__call__

FlaxElectraForPreTraining

class transformers.FlaxElectraForPreTraining

__call__

FlaxElectraForCausalLM

class transformers.FlaxElectraForCausalLM

__call__

FlaxElectraForMaskedLM

class transformers.FlaxElectraForMaskedLM

__call__

FlaxElectraForSequenceClassification

class transformers.FlaxElectraForSequenceClassification

__call__

`class transformers.ElectraConfig`

`class transformers.ElectraTokenizer`

`build_inputs_with_special_tokens`

`convert_tokens_to_string`

`create_token_type_ids_from_sequences`

`get_special_tokens_mask`

`class transformers.ElectraTokenizerFast`

`build_inputs_with_special_tokens`

`create_token_type_ids_from_sequences`

`class transformers.models.electra.modeling_electra.ElectraForPreTrainingOutput`

`class transformers.ElectraModel`

`forward`

`class transformers.ElectraForPreTraining`

`forward`

`class transformers.ElectraForCausalLM`

`forward`

`class transformers.ElectraForMaskedLM`

`forward`

`class transformers.ElectraForSequenceClassification`

`forward`

`class transformers.ElectraForMultipleChoice`

`forward`

`class transformers.ElectraForTokenClassification`

`forward`

`class transformers.ElectraForQuestionAnswering`

`forward`

`class transformers.TFElectraModel`

`call`

`class transformers.TFElectraForPreTraining`

`call`

`class transformers.TFElectraForMaskedLM`

`class transformers.TFElectraForSequenceClassification`

`call`

`class transformers.TFElectraForMultipleChoice`

`class transformers.TFElectraForTokenClassification`

`call`

`class transformers.TFElectraForQuestionAnswering`

`call`

`class transformers.FlaxElectraModel`

`call`

`class transformers.FlaxElectraForPreTraining`

`call`

`class transformers.FlaxElectraForCausalLM`

`call`

`class transformers.FlaxElectraForMaskedLM`

`call`

`class transformers.FlaxElectraForSequenceClassification`

`call`

`class transformers.FlaxElectraForMultipleChoice`

`call`

`class transformers.FlaxElectraForTokenClassification`

`call`

`class transformers.FlaxElectraForQuestionAnswering`

`call`

`class transformers.EncoderDecoderConfig`

`from_encoder_decoder_configs`

`class transformers.EncoderDecoderModel`

`forward`

`from_encoder_decoder_pretrained`

`class transformers.TFEncoderDecoderModel`

`call`

`from_encoder_decoder_pretrained`

`class transformers.FlaxEncoderDecoderModel`

`call`

`from_encoder_decoder_pretrained`

`class transformers.ErnieConfig`

`class transformers.models.ernie.modeling_ernie.ErnieForPreTrainingOutput`

`class transformers.ErnieModel`

`class transformers.ErnieForPreTraining`

`forward`

`class transformers.ErnieForCausalLM`

`forward`

`class transformers.ErnieForMaskedLM`

`forward`

`class transformers.ErnieForNextSentencePrediction`

`forward`

`class transformers.ErnieForSequenceClassification`

`forward`

`class transformers.ErnieForMultipleChoice`

`forward`