Transformers 框架 Pipeline 任务详解：文本转音频（text-to-audio 或 text-to-speech）

合集 - 人工智能(65)

1.Python之禅，开宗明义：import this2024-05-03 2.Python深入理解*和**含义和应用2024-05-03 3.[每日AI·0430]首个自主更新的多模态大模型，马斯克访华，文本一键转3D数字人骨骼动画，创新的虚拟试衣模型2024-05-03 4.国内免费的AI工具出色地帮我辅导女儿的小学英语作业2024-05-04 5.[每日AI·0506]巴菲特谈 AI，李飞飞创业，苹果或将推出 AI 功能，ChatGPT 版搜索引擎2024-05-06 6.AI已来，我与AI一起用Python编写了一个消消乐小游戏2024-05-10 7.玩转AI，笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端2024-05-12 8.一文彻底整明白，基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南2024-05-18 9.基于Llama 3搭建中文版（Llama3-Chinese-Chat）大模型对话聊天机器人2024-05-21 10.借助AI大模型，三分钟原创一部儿童故事短视频（附完整操作步骤）2024-05-31 11.[AI资讯·0531] 达摩院医疗AI新里程碑，OpenAI价值数十亿美元，微软投资130亿美元，百度文库成为一站式AI内容获取与创作平台，三大运营商完成AI产品市场，AI获得成功PMF需多次尝试……2024-05-31 12.本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验2024-06-08 13.ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面（建议收藏）2024-06-09 14.[AI资讯·0609] SamAltman建立了庞大投资帝国，通义千问Qwen2发布即爆火，OpenAI泄密者公布165页文件，奥特曼百万年薪挖角谷歌TPU人才……2024-06-09 15.Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人2024-06-12 16.[AI资讯·0618] 快手AI模型可灵在质量优于Sora，OpenAI和谷歌发布新技术推动AI视频推理发展，Gemini1.5Pro在该榜单中表现突出2024-06-18 17.Stable Diffusion 3 大模型文生图“开源英雄”笔记本部署和使用教程，轻松实现AI绘图自由2024-06-18 18.[AI资讯·0622] Claude3.5超越GPT-4o，360推出AI搜索，OpenAI收购Rockset，华为发布大模型2024-06-22 19.Phi-3 模型手机部署教程（微软发布的可与GPT-3.5媲美的小模型）2024-06-23 20.大模型应用研发基础环境配置（Miniconda、Python、Jupyter Lab、Ollama等）2024-06-25 21.使用Llama3/Qwen2等开源大模型，部署团队私有化Code Copilot和使用教程2024-06-30 22.Google 发布了最新的开源大模型 Gemma 2，本地快速部署和体验2024-07-02 23.阿里Qwen2-72B大模型已是开源榜的王者，为什么还要推出其他参数模型，被其他模型打榜？2024-07-04 24.基于Qwen2/Lllama3等大模型，部署团队私有化RAG知识库系统的详细教程（Docker+AnythingLLM）2024-07-06 25.Ollama完整教程：本地LLM管理、WebUI对话、Python/Java客户端API应用2024-07-10 26.LivePortrait 数字人：开源的图生视频模型，本地部署和专业视频制作详细教程2024-07-14 27.基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）2024-07-20 28.太卷了，阿里云免费1个月大模型算力额度，玩转Llama3.1/Qwen2等训练推理2024-07-27 29.PyTorch 训练自定义功能齐全的神经网络模型的详细教程2024-08-02 30.vLLM CPU和GPU模式署和推理 Qwen2 等大语言模型详细教程2024-08-11 31.MiniCPM-V 2.6 面壁“小钢炮”，多图、视频理解多模态模型，部署和推理实战教程2024-08-14 32.InternLM 2.5 书生·浦语开源大模型本地部署体验2024-08-24 33.GLM-4-Flash 大模型API免费了，手把手构建“儿童绘本”应用实战（附源码）2024-08-27 34.ChatTTS 长音频合成和本地部署2种方式，让你的“儿童绘本”发声的实战教程（文末有福利）2024-08-31 35.Agent(智能体)和 MetaGPT，一句话实现整个需求应用代码2024-09-07 36.基于 CrewAI 多智能体框架，手把手构建一个自动化写作应用实战2024-09-15 37.基于 Qwen2.5-Coder 模型和 CrewAI 多智能体框架，实现智能编程系统的实战教程2024-09-21 38.使用世界领先的 Qwen2.5-Math 开源模型当 AI 数学老师，让奥数解题辅导不在鸡飞狗跳（文末有福利）2024-09-28 39.transformers 推理 Qwen2.5 等大模型技术细节详解(一)transformers 初始化和对象加载（文末免费送书）2024-10-18 40.transformers 推理 Qwen2.5 等大模型技术细节详解(二)AutoModel 初始化和模型加载（免费送新书）2024-10-27 41.深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节2024-11-01 42.告别 PPT 配图难题！Napkin.ai 轻松打造生动演示文档（文末免费送书）2024-11-04 43.深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解2024-11-09 44.Meissonic 文生图模型：小参数，超轻量，本地部署推理教程2024-11-16 45.Transformers 框架任务概览：从零开始掌握 Pipeline（管道）与 Task（任务）2024-11-21

46.Transformers 框架 Pipeline 任务详解：文本转音频（text-to-audio 或 text-to-speech）2024-12-01

47.Transformers 框架 Pipeline 任务详解：文本分类（text-classification 或 sentiment-analysis）2024-12-05 48.Bolt.new 用一句话快速构建全栈应用：本地部署与应用实战（Ollama/Qwen2.5 等）2024-12-07 49.Transformers 框架 Pipeline 任务详解（三）：词元分类（token-classification）和命名实体识别2024-12-12 50.深入解析 Transformers 框架（五）：嵌入（Embedding）机制和 Word2Vec 词嵌入模型实战2024-12-13 51.Transformers 框架 Pipeline 任务详解（四）：问答（question-answering）2024-12-18 52.Transformers 框架 Pipeline 任务详解（五）：表格问答（table-question-answering）2024-12-22 53.Transformers 框架 Pipeline 任务详解（六）：填充蒙版（fill-mask）2024-12-25 54.深度解析 Transformer 模型中的位置嵌入（Positional Embedding）2024-12-29 55.使用Cursor + Qwen2.5 大模型零经验研发微信小程序：自由构建个性化节拍器应用实战01-03 56.Cline 免费插件 + Qwen2.5 大模型，零经验也能开发“对联王”微信小程序01-12 57.感谢有你，共赴未来：2024年微信公众号创作总结 · 老牛同学01-23 58.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第1天）01-24 59.新春“码”启 | 0 基础开发微信小游戏，Cocos 游戏引擎 + AI 辅助编程（第2天）01-26 60.新春“码”启 | Cocos 3D 开发微信小游戏（第3天）：场景搭建与游戏链路基础开发01-28 61.新春“码”启 | Cocos 3D 开发微信小游戏（第4天）：游戏资源设计和框架核心源代码02-01 62.新春“码”启 | Cocos 3D 微信小游戏（第5天）：分包构建和上传发布（完美收官）02-06 63.DeepSeek vs. Qwen 大模型编程能力比拼，谁更适合作为你的 AI 辅助编程助手？02-09 64.欧拉角和四元数，3D 游戏开发中“旋转”难题的通俗讲解和应用实战02-15 65.MNN 手机本地部署 DeepSeek R1 和多模态大模型，告别服务器繁忙！02-21

在上一篇文章（Transformers 框架任务概览：从零开始掌握 Pipeline（管道）与 Task（任务）），我们深入探讨了 Transformers 框架中的 Pipeline 和 Task 分类、配置及执行流程。今天，我们将聚焦于五大任务之一的text-to-audio或text-to-speech（TTS），探索如何利用 Transformers 将文本转换为自然流畅的语音。

文本转音频任务

1. 应用场景

文本转音频技术通过深度学习模型从海量语音数据中学习发音规律，能够生成逼真的声音。根据 Hugging Face 官网的数据，当前已有超过2,148个文本转音频模型供选择：

Hugging Face模型列表

这项技术广泛应用于多个领域，以下是一些具有代表性的应用场景：

有声读物与电子书：将电子书或文章的内容转化为音频格式，使用户能够在通勤、运动或其他无法专注阅读的时间段聆听，提供了一种更加便捷和灵活的知识获取方式。
在线教育与学习平台：自动为课程内容生成配套的音频讲解，帮助学生练习外语发音，增强了学习的互动性和趣味性，丰富了教育资源的形式。
虚拟助手与智能家居：智能音箱、智能手机和其他物联网设备可以使用文本转音频技术响应用户的命令或查询，提供天气预报、新闻更新等信息，提升了设备的易用性和用户体验。
客服系统与自动化服务：企业可以集成文本转音频技术来自动生成语音应答，用于客户服务热线、电话会议记录转写以及自动化的消息通知，降低了人力成本并提高了服务效率。
广播与媒体制作：广播电台、电视节目和网络视频可以快速生成旁白、广告词等需要语音播报的内容，加速了内容生产流程，减少了对专业配音演员的依赖，并可根据目标受众的特点定制不同的声音风格。

2. 任务配置

在 Transformers 框架中，text-to-audio（T2A）和text-to-speech（TTS）是同一任务的不同称呼。尽管两者在 Pipeline 配置中有别名关系，但在实际使用时没有区别，框架最终统一使用text-to-audio作为任务名称。

 TASK_ALIASES = {
    # 其他省略......
 
    "text-to-speech": "text-to-audio",
}
 
SUPPORTED_TASKS = {
    # 其他省略......
 
    "text-to-audio": {
        "impl": TextToAudioPipeline,
        "tf": (),
        "pt": (AutoModelForTextToWaveform, AutoModelForTextToSpectrogram) if is_torch_available() else (),
        "default": {"model": {"pt": ("suno/bark-small", "1dbd7a1")}},
        "type": "text",
    },
 
    # 其他省略......
}

3. 文本转音频实战

3.1 ChatTTS 模型

之前的文章中，我们介绍了如何使用ChatTTS将儿童绘本内容合成音频。ChatTTS支持中英文、停顿、笑声等多种元素的合并，生成的声音非常流畅。对于更详细的步骤，请参考老牛同学的教程：ChatTTS 长音频合成和本地部署 2 种方式，让你的“儿童绘本”发声的实战教程。

【音频文件请到老牛同学公众号收听】

需要注意的是，ChatTTS目前尚不支持 Transformers 框架的 Pipeline 任务，因此需要按照老牛同学提供的指南进行下载、配置和部署推理模型。

3.2 Bark 模型

Transformers 框架默认使用的是由 Suno AI 研发的suno/bark-small模型，该模型以其高质量、自然流畅且富有表现力的语音生成能力而闻名。除了英语外，它还支持包括简体中文、法语、德语、西班牙语在内的 13 种语言。

接下来，我们将介绍两种使用 Bark 模型的方法。

方法一：自动下载模型

首先，确保安装必要的依赖包：

 pip install --upgrade transformers scipy

然后，我们可以直接从 Hugging Face 下载模型。如果您的网络环境允许，可以直接下载；否则，可以通过设置镜像来加速下载过程：

 import os
from transformers import pipeline
import scipy
 
# 设置代理和本地缓存目录
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
cache_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Cache')
os.environ['HF_HOME'] = cache_dir
 
# 创建Pipeline任务
nlp = pipeline("text-to-audio", model="suno/bark-small")
 
# 执行文本转音频任务
speech = nlp("Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.", forward_params={"do_sample": True})
 
# 存储音频文件
scipy.io.wavfile.write("./output/01.bark.wav", rate=speech["sampling_rate"], data=speech["audio"].ravel())

运行上述代码后，您将在output目录下找到生成的音频文件：01.bark.wav。

【音频文件请到老牛同学公众号收听】

方法二：自主下载模型

如果您希望通过本地模型文件进行推理，可以按照以下步骤操作：

 from transformers import AutoTokenizer, AutoModel, pipeline
import os
 
# 本地模型文件目录
model_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Bark-small')
 
# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_dir, local_files_only=True)
model = AutoModel.from_pretrained(model_dir, torch_dtype="auto", device_map="auto", local_files_only=True)
 
# 创建Pipeline任务
nlp = pipeline("text-to-audio", tokenizer=tokenizer, model=model)

这样，您可以基于本地存储的模型文件进行推理，避免了网络下载的限制。

总结

本文详细介绍了 Transformers 框架中text-to-audio任务的应用场景、配置方法以及实战案例。无论是使用默认的suno/bark-small模型还是其他模型，Pipeline 都提供了简单而强大的接口来实现文本到音频的转换。未来，老牛同学将继续推出更多关于 Transformers 框架 Pipeline 任务的文章，敬请期待！

Transformers框架Pipeline任务

希望这篇文章能为您的学习之旅带来帮助，欢迎在评论区分享您的见解和问题！

Pipeline任务：

Transformers 框架任务概览：从零开始掌握 Pipeline（管道）与 Task（任务）

深入解析 Transformers 框架（二）：AutoModel 初始化及 Qwen2.5 模型加载全流程

深入解析 Transformers 框架（三）：Qwen2.5 大模型的 AutoTokenizer 技术细节

深入解析 Transformers 框架（四）：Qwen2.5/GPT 分词流程与 BPE 分词算法技术细节详解

基于 Qwen2.5-Coder 模型和 CrewAI 多智能体框架，实现智能编程系统的实战教程

vLLM CPU 和 GPU 模式署和推理 Qwen2 等大语言模型详细教程

基于 Qwen2/Lllama3 等大模型，部署团队私有化 RAG 知识库系统的详细教程（Docker+AnythingLLM）

使用 Llama3/Qwen2 等开源大模型，部署团队私有化 Code Copilot 和使用教程

基于 Qwen2 大模型微调技术详细教程（LoRA 参数高效微调和 SwanLab 可视化监控）

ChatTTS 长音频合成和本地部署 2 种方式，让你的“儿童绘本”发声的实战教程

微信公众号：老牛同学

posted @ 2024-12-01 17:00 老牛啊阅读(79) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Transformers 框架任务概览：从零开始掌握 Pipeline（管道）与 Task（任务）

· Transformers 框架 Pipeline 任务详解：文本分类（text-classification 或 sentiment-analysis）

· 第1篇 Transformers各种API的综述

· python-transformers库

· Transformers--4-37-中文文档-一-

阅读排行：
· 10亿数据，如何做迁移？
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 推荐几款开源且免费的 .NET MAUI 组件库
· 易语言 —— 开山篇
· Trae初体验

奔跑的蜗牛·老牛同学

奔跑的蜗牛，记录的点滴：https://ntopic.cn

Transformers 框架 Pipeline 任务详解：文本转音频（text-to-audio 或 text-to-speech）

1. 应用场景

2. 任务配置

3. 文本转音频实战

3.1 ChatTTS 模型

3.2 Bark 模型

方法一：自动下载模型

方法二：自主下载模型

总结

公告

常用链接

我的标签

合集 (6)

随笔分类 (137)

博客空间

阅读排行榜

推荐排行榜

	TASK_ALIASES = {
	# 其他省略......

	"text-to-speech": "text-to-audio",
	}

	SUPPORTED_TASKS = {
	# 其他省略......

	"text-to-audio": {
	"impl": TextToAudioPipeline,
	"tf": (),
	"pt": (AutoModelForTextToWaveform, AutoModelForTextToSpectrogram) if is_torch_available() else (),
	"default": {"model": {"pt": ("suno/bark-small", "1dbd7a1")}},
	"type": "text",
	},

	# 其他省略......
	}

	import os
	from transformers import pipeline
	import scipy

	# 设置代理和本地缓存目录
	os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
	cache_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Cache')
	os.environ['HF_HOME'] = cache_dir

	# 创建Pipeline任务
	nlp = pipeline("text-to-audio", model="suno/bark-small")

	# 执行文本转音频任务
	speech = nlp("Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.", forward_params={"do_sample": True})

	# 存储音频文件
	scipy.io.wavfile.write("./output/01.bark.wav", rate=speech["sampling_rate"], data=speech["audio"].ravel())

	from transformers import AutoTokenizer, AutoModel, pipeline
	import os

	# 本地模型文件目录
	model_dir = os.path.join('D:', os.path.sep, 'ModelSpace', 'Bark-small')

	# 加载分词器和模型
	tokenizer = AutoTokenizer.from_pretrained(model_dir, local_files_only=True)
	model = AutoModel.from_pretrained(model_dir, torch_dtype="auto", device_map="auto", local_files_only=True)

	# 创建Pipeline任务
	nlp = pipeline("text-to-audio", tokenizer=tokenizer, model=model)