Transformers--4-37-中文文档-三十九-

Transformers 4.37 中文文档（三十九）

原文：huggingface.co/docs/transformers

Speech2Text2

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/speech_to_text_2

概述

Speech2Text2 模型与 Wav2Vec2 一起用于大规模自监督和半监督学习的语音翻译中提出的语音翻译模型，作者为 Changhan Wang，Anne Wu，Juan Pino，Alexei Baevski，Michael Auli，Alexis Conneau。

Speech2Text2 是一种仅解码器变换器模型，可与任何语音仅编码器一起使用，例如 Wav2Vec2 或 HubERT 用于语音到文本任务。请参考 SpeechEncoderDecoder 类，了解如何将 Speech2Text2 与任何语音仅编码器模型结合使用。

此模型由Patrick von Platen贡献。

原始代码可以在这里找到。

使用提示

Speech2Text2 在 CoVoST 语音翻译数据集上取得了最先进的结果。有关更多信息，请参阅官方模型。
Speech2Text2 始终在 SpeechEncoderDecoder 框架内使用。
Speech2Text2 的分词器基于fastBPE。

推理

Speech2Text2 的 SpeechEncoderDecoderModel 模型接受来自语音的原始波形输入值，并利用 generate()将输入语音自回归地翻译为目标语言。

Wav2Vec2FeatureExtractor 类负责预处理输入语音，Speech2Text2Tokenizer 解码生成的目标标记为目标字符串。Speech2Text2Processor 将 Wav2Vec2FeatureExtractor 和 Speech2Text2Tokenizer 封装成单个实例，用于提取输入特征和解码预测的标记 ID。

逐步语音翻译

>>> import torch
>>> from transformers import Speech2Text2Processor, SpeechEncoderDecoderModel
>>> from datasets import load_dataset
>>> import soundfile as sf

>>> model = SpeechEncoderDecoderModel.from_pretrained("facebook/s2t-wav2vec2-large-en-de")
>>> processor = Speech2Text2Processor.from_pretrained("facebook/s2t-wav2vec2-large-en-de")

>>> def map_to_array(batch):
...     speech, _ = sf.read(batch["file"])
...     batch["speech"] = speech
...     return batch

>>> ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> ds = ds.map(map_to_array)

>>> inputs = processor(ds["speech"][0], sampling_rate=16_000, return_tensors="pt")
>>> generated_ids = model.generate(inputs=inputs["input_values"], attention_mask=inputs["attention_mask"])

>>> transcription = processor.batch_decode(generated_ids)

通过管道进行语音翻译

自动语音识别管道也可用于仅使用几行代码翻译语音

>>> from datasets import load_dataset
>>> from transformers import pipeline

>>> librispeech_en = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
>>> asr = pipeline(
...     "automatic-speech-recognition",
...     model="facebook/s2t-wav2vec2-large-en-de",
...     feature_extractor="facebook/s2t-wav2vec2-large-en-de",
... )

>>> translation_de = asr(librispeech_en[0]["file"])

查看model hub以查找 Speech2Text2 检查点。

资源

因果语言建模任务指南

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-三十九-

Transformers 4.37 中文文档（三十九）

Speech2Text2

概述

使用提示

推理

资源

Speech2Text2Config

class transformers.Speech2Text2Config

Speech2TextTokenizer

class transformers.Speech2Text2Tokenizer

batch_decode

decode

save_vocabulary

Speech2Text2Processor

class transformers.Speech2Text2Processor

__call__

from_pretrained

save_pretrained

batch_decode

decode

Speech2Text2ForCausalLM

class transformers.Speech2Text2ForCausalLM

forward

SpeechT5

概述

SpeechT5Config

class transformers.SpeechT5Config

SpeechT5HifiGanConfig

class transformers.SpeechT5HifiGanConfig

SpeechT5Tokenizer

class transformers.SpeechT5Tokenizer

__call__

save_vocabulary

decode

batch_decode

SpeechT5FeatureExtractor

class transformers.SpeechT5FeatureExtractor

__call__

SpeechT5Processor

class transformers.SpeechT5Processor

__call__

pad

from_pretrained

save_pretrained

batch_decode

decode

SpeechT5Model

class transformers.SpeechT5Model

forward

SpeechT5ForSpeechToText

class transformers.SpeechT5ForSpeechToText

forward

SpeechT5ForTextToSpeech

class transformers.SpeechT5ForTextToSpeech

forward

generate

SpeechT5ForSpeechToSpeech

class transformers.SpeechT5ForSpeechToSpeech

forward

generate_speech

SpeechT5HifiGan

class transformers.SpeechT5HifiGan

forward

UniSpeech

概述

使用提示

资源

UniSpeechConfig

class transformers.UniSpeechConfig

UniSpeech 特定的输出

class transformers.models.unispeech.modeling_unispeech.UniSpeechForPreTrainingOutput

UniSpeechModel

class transformers.UniSpeechModel

forward

UniSpeechForCTC

class transformers.UniSpeechForCTC

forward

`class transformers.Speech2Text2Config`

`class transformers.Speech2Text2Tokenizer`

`batch_decode`

`decode`

`save_vocabulary`

`class transformers.Speech2Text2Processor`

`call`

`from_pretrained`

`save_pretrained`

`batch_decode`

`decode`

`class transformers.Speech2Text2ForCausalLM`

`forward`

`class transformers.SpeechT5Config`

`class transformers.SpeechT5HifiGanConfig`

`class transformers.SpeechT5Tokenizer`

`call`

`save_vocabulary`

`decode`

`batch_decode`

`class transformers.SpeechT5FeatureExtractor`

`call`

`class transformers.SpeechT5Processor`

`call`

`pad`

`from_pretrained`

`save_pretrained`

`batch_decode`

`decode`

`class transformers.SpeechT5Model`

`forward`

`class transformers.SpeechT5ForSpeechToText`

`forward`

`class transformers.SpeechT5ForTextToSpeech`

`forward`

`generate`

`class transformers.SpeechT5ForSpeechToSpeech`

`forward`

`generate_speech`

`class transformers.SpeechT5HifiGan`

`forward`

`class transformers.UniSpeechConfig`

`class transformers.models.unispeech.modeling_unispeech.UniSpeechForPreTrainingOutput`

`class transformers.UniSpeechModel`

`forward`

`class transformers.UniSpeechForCTC`

`forward`

`class transformers.UniSpeechForSequenceClassification`

`forward`

`class transformers.UniSpeechForPreTraining`

`forward`

`class transformers.UniSpeechSatConfig`

`class transformers.models.unispeech_sat.modeling_unispeech_sat.UniSpeechSatForPreTrainingOutput`

`class transformers.UniSpeechSatModel`

`forward`

`class transformers.UniSpeechSatForCTC`

`forward`

`class transformers.UniSpeechSatForSequenceClassification`

`forward`

`class transformers.UniSpeechSatForAudioFrameClassification`

`forward`

`class transformers.UniSpeechSatForXVector`

`forward`

`class transformers.UniSpeechSatForPreTraining`

`forward`

`class transformers.UnivNetConfig`

`class transformers.UnivNetFeatureExtractor`

`call`

`class transformers.UnivNetModel`

`forward`

`class transformers.VitsConfig`

`class transformers.VitsTokenizer`

`call`

`save_vocabulary`

`class transformers.VitsModel`

`forward`

`class transformers.Wav2Vec2Config`

`class transformers.Wav2Vec2CTCTokenizer`

`call`

`save_vocabulary`