随笔- 192 文章- 0 评论- 1 阅读- 15285

中国服务外包杯-歌声转化算法

今天我突然想起来建民老师布置的服务外包杯作业，我们组选的是歌声转化算法赛题

对于这个赛题，我搜索了部分资料：

语音转换，也被称为声音转换或语音变换，是一种用于改变人的语音特征的技术，同时保留语言内容和说话者的身份。它涉及修改源说话者的声音特性，使其听起来像目标说话者的声音。语音转换的目标是将源说话者的声音的各个方面进行转换，如基频（音高）、频谱包络（声道特征）和韵律特征（节奏、语调和重音），以使其与目标说话者的特征相匹配。这样，源说话者的声音就能够采用目标说话者的特征，而不改变语言内容。

最开始人们通过信号处理的方式进行语音转换，主要是通过基音和速度对语音信息进行建模，然后通过PSOLA对语音基音或者速度进行修改从而达到变声的效果，详细内容可以参考本公众号的这篇文章。但是这种修改只能简单地调高/调低音调，并不能达到生成指定说话人音色的目的。随着深度学习的兴起，许多人开始尝试使用神经网络强大的特征提取能力对语音信息进行建模。早期的语音转换分为三个部分，分别是语音分析、特征映射和语音重建。随着韩国科学院在ICML 2021发布VITS(VITS: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech)论文和代码，语音转换进入了端到端的时代。VITS本身是用于语音合成任务，但语音合成和语音转换具有相似的结构，或者可以说语音转换网络是利用了语言信息的语音合成网络。

So-vits-svc(SoftVC VITS Singing Voice Conversion)是一款开源免费AI语音转换软件，最近大火的AI孙燕姿利用的也是这一技术，So-vits-svc可以通过学习一个人的声音，对另一首歌做音色替换。

想要使用SVS，需要进行一系列的环境配置，参考资料：https://zhuanlan.zhihu.com/p/635429751