语音识别技术

虽然人从外部获取信息，绝大部分来自来自视觉，可是语音的地位一直很高的，它很好的表表达了人的特征和清晰的收入方式。其中语音识别技术的地位又是很高的，可以让机器在字面上明白你在说什么，这是自然的人机交互的基础。现在走在语音识别技术前沿的公司有科大讯飞，google，微软。在我们的前面几篇blog中已经提到了科大讯飞的输入法，其中就是利用了语音识别技术。

现在来介绍一下语音识别技术的具体方法和应用。语音识别系统是模式识别系统的具体化。一般的系统包括如下的步骤：

特征提取 --> 模型 -->特征匹配 --> 识别结果

模型是通过训练样本获得的。

语音识别要解决的问题有连续语音识别，非特定人识别和环境复杂等的情况。连续语音识别是对付一个人的长句子的识别，非定人是的对付不同的人的语音输入，复杂的情况是你可能处于不同的环境下进行输入。这些问题都很难解决，但是在很多人的智慧下，很多问题得以解决。下面讲解部分方法：

大概的方法有基于HMM的，快速自适应的，结构特征的。

	样本数量	算法原理	效果
HMM	几百个	运用隐含markov链的状态的转移来模拟语音信号	很好，能达到很棒的识别率
快速自适应	一百个左右	使用自适应技术MAP,MLLR等消除声道等的影响，这样可以减少训练样本	对于很好的算法，同样可以获得很好的识别率
结构特征	五个左右	建立语音的HMM连续模型，然后计算高斯分布之间的巴氏距离	暂时还在研究阶段，没有开始连续语音的研究