语音识别技术
虽然人从外部获取信息,绝大部分来自来自视觉,可是语音的地位一直很高的,它很好的表表达了人的特征和清晰的收入方式。其中语音识别技术的地位又是很高的,可以让机器在字面上明白你在说什么,这是自然的人机交互的基础。现在走在语音识别技术前沿的公司有科大讯飞,google,微软。在我们的前面几篇blog中已经提到了科大讯飞的输入法,其中就是利用了语音识别技术。
现在来介绍一下语音识别技术的具体方法和应用。语音识别系统是模式识别系统的具体化。一般的系统包括如下的步骤:
特征提取 --> 模型 -->特征匹配 --> 识别结果
模型是通过训练样本获得的。
语音识别要解决的问题有连续语音识别,非特定人识别和环境复杂等的情况。连续语音识别是对付一个人的长句子的识别,非定人是的对付不同的人的语音输入,复杂的情况是你可能处于不同的环境下进行输入。这些问题都很难解决,但是在很多人的智慧下,很多问题得以解决。下面讲解部分方法:
大概的方法有基于HMM的,快速自适应的,结构特征的。
|
样本数量 |
算法原理 |
效果 |
HMM |
几百个 |
运用隐含markov链的状态的转移来模拟语音信号 |
很好,能达到很棒的识别率 |
快速自适应 |
一百个左右 |
使用自适应技术MAP,MLLR等消除声道等的影响,这样可以减少训练样本 |
对于很好的算法,同样可以获得很好的识别率 |
结构特征 |
五个左右 |
建立语音的HMM连续模型,然后计算高斯分布之间的巴氏距离 |
暂时还在研究阶段,没有开始连续语音的研究 |
在不同的场合下使用不同的方法。现在主流的方法都是基于HMM的,因为她它很可靠,还有现在的方法基本上是基于云计算的,有一个很强的服务集群提供服务。比如说科大讯飞的语音输入法就是基于几千台的服务器的。这样的效果很好,基本可以用于实际的情况。
应用:
1.语音输入,科大讯飞做的就是一个例子,很好的人性化,可以很方便的输入。
2.语音搜索,google就提供了这样的服务,用户可以通过语音输入进行搜索。
3.智能玩具,在今年的世博会上就有相应的海宝玩具,可以和它对诗等。