[Voice] 01 - What are features of voice

声音有哪些特性?


Ref: 实时演唱打分系统评价算法的研究与应用

高音信息,节奏信息
短时平稳特性
 
音高:频率
音长:持续
音强:振幅
音色:基音+若干泛音
 
找到基音很重要。
 
 
Ref: 

语音相似度评价算法研究 - 任雪妮 - 

西安建筑科技大学

 

Research on Phonetic similarity evaluation algorithm 

 

 

三个重要特征:
基音轨迹
梅尔倒频谱系数MFCC
声音强度
提取特征,然后度量距离。
 
 

Ref: 简单的音频相似度对比 Demo

 
 
只能判断音频文件与具有微小差别副本的差距。 
 
 

Ref: 基于MFCC的语音评分方法研究【看上去有点成效】

 
 
 
 
 
阅读笔记:
 
 

I recommend to take a look into the HTK toolkit for speech recognition http://htk.eng.cam.ac.uk/, especially the part on feature extraction.

Features that I would assume to be good indicators:

  • Mel-Cepstrum coefficients (general timbre)
  • LPC (for the harmonics)
  
 
 
[0002]目前已有的音频相似度评估通常是
  1. 基于一个说话人语音信息进行特征提取,
  2. 提取不同的语音特征等信息后,通常的做法是使用机器学习相关算法对该信息进行分类或者聚类。
 
这样做得到的聚类信息对做相似度评估虽然具有一定作用,但是也存在一些问题。
一个比较直观的问题就是需要有大量的原唱音频资料作为聚类时的原始输入数据,并且系统复杂度也较高。
此外,有时候系统中可能不存在这样的原始音频数据;或者是有时需要对用户输入音频和原唱音频做一个快速对比,于是使用机器学习的方法对原唱音频做聚类的方法便不可行了。
 
 
 
Flask webapp/endpoint that compares the user's speech with different accents and assigns similarity scores based on speed, voice (DTW/MFCC), and accuracy.
The accents are generated from Amazon Polly and accuracy analysis using Bing Speech API speech to text.
 

阿里 语音识别:Alibaba-MIT-Speech【不知道效果如何?】

 

posted @   郝壹贰叁  阅读(737)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示