Transformers--4-37-中文文档-三十八-

Transformers 4.37 中文文档（三十八）

原文：huggingface.co/docs/transformers

MusicGen

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/musicgen

概述

MusicGen 模型是由 Jade Copet、Felix Kreuk、Itai Gat、Tal Remez、David Kant、Gabriel Synnaeve、Yossi Adi 和 Alexandre Défossez 在论文Simple and Controllable Music Generation中提出的。

MusicGen 是一个单阶段自回归 Transformer 模型，能够生成高质量的音乐样本，其条件是文本描述或音频提示。文本描述通过一个冻结的文本编码器模型传递，以获得一系列隐藏状态表示。然后训练 MusicGen 来预测离散的音频标记，或称为音频代码，这些标记是通过音频压缩模型（如 EnCodec）解码以恢复音频波形。

通过高效的标记交错模式，MusicGen 不需要自监督的文本/音频提示语义表示，从而消除了预测一组码书（例如分层或上采样）所需级联多个模型的需要。相反，它能够在单次前向传递中生成所有码书。

论文摘要如下：

我们解决了条件音乐生成的任务。我们引入了 MusicGen，一个单一语言模型（LM），它在几个流的压缩离散音乐表示（即标记）上运行。与以往的工作不同，MusicGen 由单阶段 Transformer LM 和高效的标记交错模式组成，消除了级联多个模型的需要，例如分层或上采样。遵循这种方法，我们展示了 MusicGen 如何能够生成高质量的样本，同时在文本描述或旋律特征的条件下，允许更好地控制生成的输出。我们进行了广泛的实证评估，考虑了自动和人类研究，显示所提出的方法在标准文本到音乐基准上优于评估的基线。通过消融研究，我们阐明了构成 MusicGen 的每个组件的重要性。

该模型由sanchit-gandhi贡献。原始代码可以在这里找到。预训练检查点可以在Hugging Face Hub上找到。

使用提示

在从这里下载原始检查点后，您可以使用位于src/transformers/models/musicgen/convert_musicgen_transformers.py的转换脚本进行转换，命令如下：

python src/transformers/models/musicgen/convert_musicgen_transformers.py \
    --checkpoint small --pytorch_dump_folder /output/path --safe_serialization

生成

MusicGen 兼容两种生成模式：贪婪和抽样。实际上，抽样比贪婪产生的结果显著更好，因此我们鼓励尽可能使用抽样模式。抽样默认启用，并且可以通过在调用MusicgenForConditionalGeneration.generate()时设置do_sample=True来明确指定，或通过覆盖模型的生成配置（见下文）来指定。

生成受正弦位置嵌入的限制，输入限制为 30 秒。也就是说，MusicGen 不能生成超过 30 秒的音频（1503 个标记），输入音频通过音频提示生成也会对此限制有所贡献，因此，给定 20 秒的音频输入，MusicGen 不能生成超过额外 10 秒的音频。

Transformers 支持 MusicGen 的单声道（1 通道）和立体声（2 通道）变体。单声道版本生成一组代码书。立体声版本生成 2 组代码书，每个通道（左/右）各一个，并且每组代码书通过音频压缩模型独立解码。每个通道的音频流合并以产生最终的立体声输出。

无条件生成

无条件（或'null'）生成的输入可以通过方法MusicgenForConditionalGeneration.get_unconditional_inputs()获得：

>>> from transformers import MusicgenForConditionalGeneration

>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")
>>> unconditional_inputs = model.get_unconditional_inputs(num_samples=1)

>>> audio_values = model.generate(**unconditional_inputs, do_sample=True, max_new_tokens=256)

音频输出是一个形状为(batch_size, num_channels, sequence_length)的三维 Torch 张量。要听生成的音频样本，可以在 ipynb 笔记本中播放它们：

from IPython.display import Audio

sampling_rate = model.config.audio_encoder.sampling_rate
Audio(audio_values[0].numpy(), rate=sampling_rate)

或者使用第三方库（例如scipy）将它们保存为.wav文件：

>>> import scipy

>>> sampling_rate = model.config.audio_encoder.sampling_rate
>>> scipy.io.wavfile.write("musicgen_out.wav", rate=sampling_rate, data=audio_values[0, 0].numpy())

文本条件生成

模型可以通过使用 MusicgenProcessor 预处理输入来生成受文本提示条件的音频样本：

>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration

>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> inputs = processor(
...     text=["80s pop track with bassy drums and synth", "90s rock song with loud guitars and heavy drums"],
...     padding=True,
...     return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)

guidance_scale用于分类器自由引导（CFG），设置条件对数（从文本提示预测）和无条件对数（从无条件或'null'提示预测）之间的权重。更高的引导比例鼓励模型生成更与输入提示密切相关的样本，通常以音频质量较差为代价。通过设置guidance_scale > 1启用 CFG。为获得最佳结果，请使用guidance_scale=3（默认值）。

音频提示生成

相同的 MusicgenProcessor 可用于预处理用于音频延续的音频提示。在以下示例中，我们使用🤗 Datasets 库加载音频文件，可以通过以下命令进行 pip 安装：

pip install --upgrade pip
pip install datasets[audio]

>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> from datasets import load_dataset

>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> dataset = load_dataset("sanchit-gandhi/gtzan", split="train", streaming=True)
>>> sample = next(iter(dataset))["audio"]

>>> # take the first half of the audio sample
>>> sample["array"] = sample["array"][: len(sample["array"]) // 2]

>>> inputs = processor(
...     audio=sample["array"],
...     sampling_rate=sample["sampling_rate"],
...     text=["80s blues track with groovy saxophone"],
...     padding=True,
...     return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)

对于批量音频提示生成，可以通过使用 MusicgenProcessor 类对生成的audio_values进行后处理，以去除填充：

>>> from transformers import AutoProcessor, MusicgenForConditionalGeneration
>>> from datasets import load_dataset

>>> processor = AutoProcessor.from_pretrained("facebook/musicgen-small")
>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> dataset = load_dataset("sanchit-gandhi/gtzan", split="train", streaming=True)
>>> sample = next(iter(dataset))["audio"]

>>> # take the first quarter of the audio sample
>>> sample_1 = sample["array"][: len(sample["array"]) // 4]

>>> # take the first half of the audio sample
>>> sample_2 = sample["array"][: len(sample["array"]) // 2]

>>> inputs = processor(
...     audio=[sample_1, sample_2],
...     sampling_rate=sample["sampling_rate"],
...     text=["80s blues track with groovy saxophone", "90s rock song with loud guitars and heavy drums"],
...     padding=True,
...     return_tensors="pt",
... )
>>> audio_values = model.generate(**inputs, do_sample=True, guidance_scale=3, max_new_tokens=256)

>>> # post-process to remove padding from the batched audio
>>> audio_values = processor.batch_decode(audio_values, padding_mask=inputs.padding_mask)

生成配置

控制生成过程的默认参数，例如采样、引导比例和生成的标记数量，可以在模型的生成配置中找到，并根据需要进行更新：

>>> from transformers import MusicgenForConditionalGeneration

>>> model = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small")

>>> # inspect the default generation config
>>> model.generation_config

>>> # increase the guidance scale to 4.0
>>> model.generation_config.guidance_scale = 4.0

>>> # decrease the max length to 256 tokens
>>> model.generation_config.max_length = 256

请注意，传递给生成方法的任何参数都将覆盖生成配置中的参数，因此在调用生成时设置do_sample=False将覆盖生成配置中model.generation_config.do_sample的设置。

模型结构

MusicGen 模型可以分解为三个不同的阶段：

文本编码器：将文本输入映射到一系列隐藏状态表示。预训练的 MusicGen 模型使用来自 T5 或 Flan-T5 的冻结文本编码器
MusicGen 解码器：一个语言模型（LM），根据编码器隐藏状态表示自回归生成音频标记（或代码）
音频编码器/解码器：用于将音频提示编码为提示标记，并通过解码器预测的音频标记恢复音频波形

因此，MusicGen 模型可以作为独立的解码器模型使用，对应于类 MusicgenForCausalLM，或作为包含文本编码器和音频编码器/解码器的复合模型使用，对应于类 MusicgenForConditionalGeneration。如果只需从预训练检查点加载解码器，则可以首先指定正确的配置，或通过复合模型的.decoder属性访问：

>>> from transformers import AutoConfig, MusicgenForCausalLM, MusicgenForConditionalGeneration

>>> # Option 1: get decoder config and pass to `.from_pretrained`
>>> decoder_config = AutoConfig.from_pretrained("facebook/musicgen-small").decoder
>>> decoder = MusicgenForCausalLM.from_pretrained("facebook/musicgen-small", **decoder_config)

>>> # Option 2: load the entire composite model, but only return the decoder
>>> decoder = MusicgenForConditionalGeneration.from_pretrained("facebook/musicgen-small").decoder

由于文本编码器和音频编码器/解码器模型在训练期间被冻结，MusicGen 解码器 MusicgenForCausalLM 可以在编码器隐藏状态和音频代码的数据集上独立训练。对于推断，训练好的解码器可以与冻结的文本编码器和音频编码器/解码器结合，以恢复复合 MusicgenForConditionalGeneration 模型。

提示：

MusicGen 是在 Encodec 的 32kHz 检查点上训练的。您应确保使用 Encodec 模型的兼容版本。
采样模式往往比贪婪模式提供更好的结果 - 您可以在调用MusicgenForConditionalGeneration.generate()时使用变量do_sample切换采样。

龙哥盟

掠夺·扩张·投机·博弈

Transformers--4-37-中文文档-三十八-

Transformers 4.37 中文文档（三十八）

MusicGen

概述

使用提示

生成

无条件生成

文本条件生成

音频提示生成

生成配置

模型结构

MusicgenDecoderConfig

class transformers.MusicgenDecoderConfig

MusicgenConfig

class transformers.MusicgenConfig

from_sub_models_config

MusicgenProcessor

class transformers.MusicgenProcessor

batch_decode

decode

MusicgenModel

class transformers.MusicgenModel

forward

MusicgenForCausalLM

class transformers.MusicgenForCausalLM

forward

MusicgenForConditionalGeneration

class transformers.MusicgenForConditionalGeneration

forward

Pop2Piano

概述

使用提示

示例

Pop2PianoConfig

class transformers.Pop2PianoConfig

Pop2PianoFeatureExtractor

class transformers.Pop2PianoFeatureExtractor

__call__

Pop2PianoForConditionalGeneration

class transformers.Pop2PianoForConditionalGeneration

前向

generate

Pop2PianoTokenizer

class transformers.Pop2PianoTokenizer

__call__

Pop2PianoProcessor

class transformers.Pop2PianoProcessor

__call__

SeamlessM4T

概述

用法

语音

文本

提示

1. 使用专用模型

2. 更改说话者身份

3. 更改生成策略

4. 同时生成语音和文本

模型架构

SeamlessM4TModel

generate

SeamlessM4TForTextToSpeech

class transformers.SeamlessM4TForTextToSpeech

generate

SeamlessM4TForSpeechToSpeech

class transformers.SeamlessM4TForSpeechToSpeech

generate

SeamlessM4TForTextToText

class transformers.SeamlessM4TForTextToText

forward

SeamlessM4TForSpeechToText

class transformers.SeamlessM4TForSpeechToText

前进

generate

SeamlessM4TConfig

class transformers.SeamlessM4TConfig

SeamlessM4TTokenizer

class transformers.SeamlessM4TTokenizer

`class transformers.MusicgenDecoderConfig`

`class transformers.MusicgenConfig`

`from_sub_models_config`

`class transformers.MusicgenProcessor`

`batch_decode`

`decode`

`class transformers.MusicgenModel`

`forward`

`class transformers.MusicgenForCausalLM`

`forward`

`class transformers.MusicgenForConditionalGeneration`

`forward`

`class transformers.Pop2PianoConfig`

`class transformers.Pop2PianoFeatureExtractor`

`call`

`class transformers.Pop2PianoForConditionalGeneration`

`前向`

`generate`

`class transformers.Pop2PianoTokenizer`

`call`

`class transformers.Pop2PianoProcessor`

`call`

`generate`

`class transformers.SeamlessM4TForTextToSpeech`

`generate`

`class transformers.SeamlessM4TForSpeechToSpeech`

`generate`

`class transformers.SeamlessM4TForTextToText`

`forward`

`class transformers.SeamlessM4TForSpeechToText`

`前进`

`generate`

`class transformers.SeamlessM4TConfig`

`class transformers.SeamlessM4TTokenizer`

`call`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

`class transformers.SeamlessM4TTokenizerFast`

`call`

`class transformers.SeamlessM4TFeatureExtractor`

`call`

`class transformers.SeamlessM4TProcessor`

`call`

`class transformers.SeamlessM4TCodeHifiGan`

`forward`

`class transformers.SeamlessM4THifiGan`

`forward`

`class transformers.SeamlessM4TTextToUnitModel`

`class transformers.SeamlessM4TTextToUnitForConditionalGeneration`

`forward`

`class transformers.SeamlessM4Tv2Model`

`generate`

`class transformers.SeamlessM4Tv2ForTextToSpeech`

`generate`

`class transformers.SeamlessM4Tv2ForSpeechToSpeech`

`generate`

`class transformers.SeamlessM4Tv2ForTextToText`

`forward`

`generate`

`class transformers.SeamlessM4Tv2ForSpeechToText`

`forward`

`generate`

`class transformers.SeamlessM4Tv2Config`

`class transformers.SEWConfig`

`class transformers.SEWModel`

`forward`

`class transformers.SEWForCTC`