-语音合成:
摘要本文介绍了 F5-TTS,一种基于流匹配和扩散变换器 (DiT) 的完全非自回归文本转语音系统。它不需要时长模型、文本编码器和音素对齐等复杂设计,只需用填充标记将文本输入填充到与输入语音相同的长度,然后进行去噪即可生成语音,这最初由 E2 TTS 证明是可行的。然而,E2 TTS 的原始设计由于其收敛速度慢和鲁棒性低而难以遵循。为了解决这些问题,我们首先使用 ConvNeXt 对输入进行建模以细化文本表示,使其易于与语音对齐。我们进一步提出了一种推理时间摆动采样策略,这显著提高了我们模型的性能和效率。这种流步骤的采样策略可以轻松应用于现有的基于流匹配的模型,而无需重新训练。我们的设计可以加快训练速度,并实现 0.15 的推理 RTF,与最先进的基于扩散的 TTS 模型相比,这一性能有了很大的提高。我们的 Fairytaler Fakes Fluent and Faithful Speech with Flow matching (F5-TTS) 在公开的 100K 小时多语言数据集上进行训练,表现出高度自然和富有表现力的零样本能力、无缝代码切换能力和速度控制效率。演示样本可在https://SWivid.github.io/F5-TTS找到。我们发布所有代码和检查点以促进社区发展。
内容
本页面仅用于研究演示目的。
模型概述
图 1:F5-TTS 训练(左)和推理(右)概览。该模型在文本引导的语音填充任务和条件流匹配损失上进行训练。输入文本被转换为字符序列,用填充标记填充到与输入语音相同的长度,并通过 ConvNeXt 块进行细化,然后与语音输入连接。推理利用 Sway Sampling 进行流步骤,使用模型和 ODE 求解器从采样噪声中生成语音。
本演示页中的所有样本均使用 F5-TTS(NFE=32 CFG=2 w/ SS)一次性生成(无剪切),并使用预训练的 Vocos 作为声码器。
零样本生成
来自Seed-TTS演示页面的提示和文本。
语言 | 迅速的 | 同语言生成 | 跨语言生成 |
---|---|---|---|
EN | 我不在乎你怎么称呼我。我一直是一个沉默的旁观者,看着物种进化,帝国兴衰。但永远记住,我是强大而持久的。尊重我,我会养育你;无视我,你将承担后果。 |
顿时,气氛变得沉郁起来。乍一看,一切的困扰似乎都围绕在我身边。我皱着眉头,感受着那份压力,但我知道我不能放弃,不能认输。于是,我深吸一口气,心底的声音告诉我:“无论如何,都要冷静下来,重新开始。” |
|
也许是因为美味的混合口味,也可能是因为诱人的视觉效果。归根结底,我们对食物的选择反映了我们的个人喜好,有时甚至反映了我们的生活方式或信仰体系。 |
我抬头,坚定地说:“身高不能决定一切,这个世界在看我,我更看得到世界。无论是北上广,还是其他什么,我都将以我自己的方式去攀爬,目光。我可能很小,但我绝对不会被忽视。” |
||
你的安全和狼群的声誉岌岌可危。你的勇敢令人钦佩,但有时勇敢意味着知道何时撤退。请考虑和我一起回去。我们可以制定一个计划,但前提是你愿意听。 |
你的安全以及族群的礼仪都在旦夕。你的勇敢令人钦佩,但有时我们勇敢地相信共和党何时撤退。拜托,考虑一下和我一起回去吧。可以制定一个计划,但前提是你愿意奉献。 |
||
郑州 | 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道:“我身上的肉,是为了掩饰我爆棚的魅力,不然,岂不吓坏了你们呢?” |
突然,旁边传来一阵笑声。我看着他们,精神抖擞地站直了身子,摇了摇略带肉感的手臂,淡淡一笑,说道:“我身上的肉,是为了隐藏我爆棚的魅力。不然,岂不是把你们吓坏了?” |
|
顿时,气氛变得沉郁起来。乍一看,一切的困扰似乎都围绕在我身边。我皱着眉头,感受着那份压力,但我知道我不能放弃,不能认输。于是,我深吸一口气,心底的声音告诉我:“无论如何,都要冷静下来,重新开始。” |
突然,气氛变得阴沉起来。乍一看,所有的烦恼似乎都包围了我。我皱着眉头,感受到了那种压力,但我知道我不能放弃,不能认输。于是,我深吸了一口气,心里的声音告诉我,“无论如何,必须冷静下来,重新开始。” |
||
皇上的面色未变,宛如雕塑一般,他的眼眸中掠过一丝动人的温度。他深深地看了一眼忠心耿耿的臣子,终于开口:“诺,我会再考虑考虑的。”的声音低沉坚定,留下空气中隐隐的无奈与柔情。 |
皇帝面色不变,犹如雕塑一般,眼中闪过一抹感动的暖意,深深看了忠臣一眼,终于开口:“嗯,我再考虑一下。”他的声音低沉而坚定,带着淡淡的无奈与柔情。 |
代码转换,来自FireRedTTS演示页面的文本。
迅速的 | 文本 | 代码转换一代 |
---|---|---|
你昨天的表现真是出色,完全展示了你的技能。 | ||
我认为我们需要一个更清晰的策略来实现我们的目标。 | ||
这次旅行的日程有点紧,我们需要计划得更有效率一些。 | ||
他今天的心情看起来不太好,可能需要一些空间。 |
速度控制
来自 Seed-TTS 的提示和文本,与MaskGCT演示页面中使用的相同。
F5-TTS只需要一个总时长,角色的位置和时长会由模型自动分配。
迅速的 | 文本 | 0.7 倍速度 | 1.0 倍速度 | 1.3 倍速度 |
---|---|---|---|---|
我不在乎你怎么称呼我。我一直是一个沉默的旁观者,看着物种进化,帝国兴衰。但永远记住,我是强大而持久的。尊重我,我会养育你;无视我,你将承担后果。 | ||||
处理家庭秘密从来都不是件容易的事。然而,有时,隐瞒也是一种保护,旨在保护某些人免受残酷事实的伤害。有一天,我希望你能理解我这样做的原因。在那之前,安娜,请忍耐一下。 | ||||
好呀,哈哈,喜欢笑的人运气都不会差哦,希望你每天笑口常开~ | ||||
顿时,气氛变得沉郁起来。乍一看,一切的困扰似乎都围绕在我身边。我皱着眉头,感受着那份压力,但我知道我不能放弃,不能认输。于是,我深吸一口气,心底的声音告诉我:“无论如何,都要冷静下来,重新开始。” |
来自E2 TTS演示页面的提示和文本。
迅速的 | 文本 | 0.7 倍速度 | 1.0 倍速度 | 1.3 倍速度 |
---|---|---|---|---|
他非常爽快地给其他人让路,并在乡绅和菲佐斯夫人没有察觉的情况下撤退到帐篷后方。 | ||||
“他笑起来多么开心,爪子张得多么整齐,用温柔微笑的下巴欢迎小鱼进来!” | ||||
是的,那么必定会出现一些更美好、更伟大的事情,否则他们为什么要这样装饰我呢? | ||||
尽管从那时起我变得平静而坚强,但我认为上帝的意志仍然是一种可再生的恐惧…… | ||||
他穿着蓝色丝袜、带有金色扣子的蓝色及膝裤、蓝色荷叶边腰带和镶有金边的亮蓝色夹克。 | ||||
不仅如此,我还在桌子上发现了一小团黑色的面团或粘土,里面有一些看起来像锯末的东西。 |
情感
与E2 TTS演示页面中最具表现力的结果进行比较,提示来自 RAVDESS 数据集。
情感 | 迅速的 | 文本 | E2语音合成 | F5-TTS |
---|---|---|---|---|
冷静的 | 所以,我在杂货店里,嗯,我看到了这个,看上去真的很美味的蛋糕,你知道吗?我,嗯,真的很想买它,但是,嗯,我正在节食,所以,嗯,我只是盯着它看了一会儿,你知道吗? | |||
生气的 | ||||
厌恶 | ||||
快乐的 | 我正在和我的朋友聊天,她对她的欧洲之旅感到非常兴奋,而我只是感到很嫉妒,对吗? | |||
伤心 | ||||
可怕 |
鲁棒性
第一个提示(Wukong)来自FireRedTTS演示页面,第二到第四个提示来自Bailing-TTS 。文本来自 Seed-TTS 硬测试集,与MaskGCT演示页面中的相同。
迅速的 | 文本 | F5-TTS |
---|---|---|
针蓝线蓝领子蓝,蓝针蓝线蓝领蓝。蓝针蓝线连蓝领,针蓝线蓝领子蓝。 | ||
壁画画凤凰,凤凰画在粉红墙。红凤凰、粉凤凰,红粉凤凰、花粉凤凰。红凤凰,黄凤凰,红粉凤凰,粉红凤凰,花粉花凤凰。 | ||
结果,民警在店里发现了一把锤子锤子锤子锤子锤子锤子。 | ||
北京在出行规模规模规模规模,城市影响力方面各方面表现出优异优异。 |
来自ELLA-V的难句。与LibriSpeech-PC test-clean 的E2 TTS演示页中的音频提示相同。
迅速的 | 文本 | F5-TTS |
---|---|---|
活跃的艺术家总是欣赏艺术的成就,并为出色的作品喝彩。 | ||
勇敢的面包师们大胆地在漂亮的面包房里烤出大批布朗尼蛋糕。 | ||
大胆的舞者在动感的舞蹈表演中令人眼花缭乱,吸引了欣喜的观众。 | ||
兴奋的工程师们热切地探索巨大的工程展品。 | ||
友善的农民忠实地耕种田地,以获得丰收的作物。 | ||
勇敢的地鼠在宏伟的冰川上优雅地赌上金色的醋栗。 | ||
快乐的徒步旅行者在天堂般的假期里和谐地穿越丘陵景观。 | ||
好奇心强的人巧妙地发明了创新的发明。 | ||
快活的慢跑者兴高采烈地加入了慢跑的队伍,证明了欢乐的欢乐。 | ||
幼儿园里热心的孩子们热心地编织着一个个结。 | ||
F 一 F 二 F 四 F 八 H 十六 H 三十二 H 六十四。 | ||
聪明的猫精心制作了色彩缤纷的拼贴画,创造出欢快的作品。 |
|
|