Transformers--4-37-中文文档-四十-

Transformers 4.37 中文文档（四十）

原文：huggingface.co/docs/transformers

Wav2Vec2-BERT

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/wav2vec2-bert

概述

Wav2Vec2-BERT 模型是由 Meta AI 的 Seamless Communication 团队在Seamless: Multilingual Expressive and Streaming Speech Translation中提出的。

该模型在超过 143 种语言的 450 万小时未标记音频数据上进行了预训练。需要微调才能用于下游任务，如自动语音识别（ASR）或音频分类。

模型的官方结果可在论文的第 3.2.1 节中找到。

论文摘要如下：

最近在自动语音翻译方面取得的进展大大扩展了语言覆盖范围，提高了多模态能力，并实现了各种任务和功能。尽管如此，今天的大规模自动语音翻译系统缺乏一些关键功能，这些功能有助于使机器中介的沟通与人与人之间的对话感觉更加流畅。在这项工作中，我们介绍了一系列模型，以流式方式实现端到端的表达丰富和多语言翻译。首先，我们贡献了一个改进版本的大规模多语言和多模态 SeamlessM4T 模型——SeamlessM4T v2。这个更新的模型采用了更新的 UnitY2 框架，训练了更多低资源语言数据。扩展版本的 SeamlessAlign 增加了 114,800 小时的自动对齐数据，涵盖了 76 种语言。SeamlessM4T v2 为我们的两个最新模型 SeamlessExpressive 和 SeamlessStreaming 提供了基础。SeamlessExpressive 实现了保留语音风格和韵律的翻译。与以往在表达性语音研究中的努力相比，我们的工作解决了一些未充分探索的韵律方面，如语速和停顿，同时保留了个人声音的风格。至于 SeamlessStreaming，我们的模型利用了高效单调多头注意力（EMMA）机制，生成低延迟的目标翻译，无需等待完整的源话语。作为首创，SeamlessStreaming 实现了多源和目标语言的同时语音到语音/文本翻译。为了了解这些模型的性能，我们结合了新颖和修改过的现有自动度量标准的版本，以评估韵律、延迟和稳健性。对于人类评估，我们改编了现有的针对衡量保留意义、自然性和表现力最相关属性的协议。为了确保我们的模型可以安全和负责任地使用，我们实施了第一个已知的多模态机器翻译红队行动，一个用于检测和减轻添加毒性的系统，一个系统性评估性别偏见，以及一个设计用于减轻深度伪造影响的不可听见的本地水印机制。因此，我们将 SeamlessExpressive 和 SeamlessStreaming 的主要组件结合起来，形成了 Seamless，这是第一个公开可用的系统，可以实时解锁表达丰富的跨语言沟通。总之，Seamless 为我们提供了需要将通用语音翻译器从科幻概念变成现实技术所需的技术基础的关键视角。最后，本工作的贡献——包括模型、代码和水印检测器——已经公开发布，并可通过下面的链接访问。

此模型由ylacombe贡献。原始代码可在此处找到。

使用提示

Wav2Vec2-BERT 遵循与 Wav2Vec2-Conformer 相同的架构，但采用因果深度卷积层，并使用音频的梅尔频谱表示作为输入，而不是原始波形。
Wav2Vec2-BERT 可以通过设置正确的config.position_embeddings_type来使用无相对位置嵌入、类似 Shaw 的位置嵌入、类似 Transformer-XL 的位置嵌入或旋转位置嵌入。
Wav2Vec2-BERT 还引入了基于 Conformer 的适配器网络，而不是简单的卷积网络。

资源

自动语音识别

Wav2Vec2BertForCTC 可以通过这个示例脚本来支持。
您还可以在如何在英语中微调语音识别模型和如何在任何语言中微调语音识别模型上调整这些笔记本。

音频分类

Wav2Vec2BertForSequenceClassification 可以通过调整这个示例脚本来使用。
另请参阅：音频分类任务指南

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-四十-

Transformers 4.37 中文文档（四十）

Wav2Vec2-BERT

概述

使用提示

资源

Wav2Vec2BertConfig

class transformers.Wav2Vec2BertConfig

Wav2Vec2BertProcessor

class transformers.Wav2Vec2BertProcessor

__call__

from_pretrained

save_pretrained

batch_decode

decode

Wav2Vec2BertModel

类 transformers.Wav2Vec2BertModel

前向

Wav2Vec2BertForCTC

class transformers.Wav2Vec2BertForCTC

forward

Wav2Vec2BertForSequenceClassification

class transformers.Wav2Vec2BertForSequenceClassification

forward

Wav2Vec2BertForAudioFrameClassification

class transformers.Wav2Vec2BertForAudioFrameClassification

forward

Wav2Vec2BertForXVector

class transformers.Wav2Vec2BertForXVector

forward

Wav2Vec2-Conformer

概述

使用提示

资源

Wav2Vec2ConformerConfig

class transformers.Wav2Vec2ConformerConfig

Wav2Vec2Conformer 特定输出

class transformers.models.wav2vec2_conformer.modeling_wav2vec2_conformer.Wav2Vec2ConformerForPreTrainingOutput

Wav2Vec2ConformerModel

class transformers.Wav2Vec2ConformerModel

forward

Wav2Vec2ConformerForCTC

class transformers.Wav2Vec2ConformerForCTC

forward

Wav2Vec2ConformerForSequenceClassification

class transformers.Wav2Vec2ConformerForSequenceClassification

前向

Wav2Vec2ConformerForAudioFrameClassification

class transformers.Wav2Vec2ConformerForAudioFrameClassification

forward

Wav2Vec2ConformerForXVector

class transformers.Wav2Vec2ConformerForXVector

forward

Wav2Vec2ConformerForPreTraining

class transformers.Wav2Vec2ConformerForPreTraining

forward

Wav2Vec2Phoneme

概述

使用提示

Wav2Vec2PhonemeCTCTokenizer

class transformers.Wav2Vec2PhonemeCTCTokenizer

__call__

batch_decode

decode

WavLM

概述

使用提示

资源

WavLMConfig

class transformers.WavLMConfig

WavLMModel

class transformers.WavLMModel

forward

WavLMForCTC

class transformers.WavLMForCTC

forward

WavLMForSequenceClassification

class transformers.WavLMForSequenceClassification

`class transformers.Wav2Vec2BertConfig`

`class transformers.Wav2Vec2BertProcessor`

`call`

`from_pretrained`

`save_pretrained`

`batch_decode`

`decode`

`类 transformers.Wav2Vec2BertModel`

`前向`

`class transformers.Wav2Vec2BertForCTC`

`forward`

`class transformers.Wav2Vec2BertForSequenceClassification`

`forward`

`class transformers.Wav2Vec2BertForAudioFrameClassification`

`forward`

`class transformers.Wav2Vec2BertForXVector`

`forward`

`class transformers.Wav2Vec2ConformerConfig`

`class transformers.models.wav2vec2_conformer.modeling_wav2vec2_conformer.Wav2Vec2ConformerForPreTrainingOutput`

`class transformers.Wav2Vec2ConformerModel`

`forward`

`class transformers.Wav2Vec2ConformerForCTC`

`forward`

`class transformers.Wav2Vec2ConformerForSequenceClassification`

`前向`

`class transformers.Wav2Vec2ConformerForAudioFrameClassification`

`forward`

`class transformers.Wav2Vec2ConformerForXVector`

`forward`

`class transformers.Wav2Vec2ConformerForPreTraining`

`forward`

`class transformers.Wav2Vec2PhonemeCTCTokenizer`

`call`

`batch_decode`

`decode`

`class transformers.WavLMConfig`

`class transformers.WavLMModel`

`forward`

`class transformers.WavLMForCTC`

`forward`

`class transformers.WavLMForSequenceClassification`

`forward`

`class transformers.WavLMForAudioFrameClassification`

`forward`

`class transformers.WavLMForXVector`

`forward`

`class transformers.WhisperConfig`

`class transformers.WhisperTokenizer`

`set_prefix_tokens`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

`batch_decode`

`decode`

`class transformers.WhisperTokenizerFast`

`set_prefix_tokens`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

`batch_decode`

`decode`

`class transformers.WhisperFeatureExtractor`

`call`

`class transformers.WhisperProcessor`

`call`

`from_pretrained`

`save_pretrained`

`batch_decode`

`decode`

`class transformers.WhisperModel`

`forward`

`_mask_input_features`

`class transformers.WhisperForConditionalGeneration`

`forward`

`generate`

`class transformers.WhisperForCausalLM`

`forward`

`class transformers.WhisperForAudioClassification`