中文语音识别系统ViaVoive使用实录

 “一开始我感到很怀疑,但很快就变成了惊讶,摆脱了手敲键盘、眼盯屏幕的打字方式,我的所有注意力都集中到我想说想写的东西上。”

  虽然我们经常在影视和文学作品中看到那种听得懂人话的机器,但对于自己办公桌上的那台方方正正的计算机却从未产生过这样的要求,似乎使用鼠标和键盘与计算机交流是天经地义的。显然这种交流方式并非最佳,否则我们每个人身上都该拖着个键盘。

  好在技术人员并不满足于敲敲键盘,点点鼠标,他们一直在努力实现一种最自然的人机交流方式-语音识别。目前这项技术已经由科研领域走进日常应用,采用该技术的软件产品出现在主流PC上。令人兴奋的是连中文(大约是世界上最难的语言)的语音识别产品也已问世,这便是由IBM推出的中文语音识别系统-ViaVoice。

  ViaVoice的成功之处在于它起点较高,采用了先进的非特定人的连续语音识别技术。所谓“非特定人”是指让计算机能够识别各种人的语音-无论男女老幼,语调高低,甚至有轻微口音。“连续语音”是相对“非连续语音”而言的,后者要求在语音输入时词汇间做有意识的停顿,而前者则不需要,可以完全按正常的说话方式录入。由于中文的语言特点,“ 连续语音”的优势更加明显。

  百闻不如一用。我一拿到ViaVoice(beta版),便迫不及待地把光盘插入了光驱中。ViaVoice 的安装程序在Windows95下自动运行,按标准配置安装后,创建一个名为 IBM ViaVoice的目录。同时安装程序还将向系统添加必要的信息以运行语音应用程序,其中很多属性可以被改变以适应你的特定要求。由于需要使用声卡和麦克风接收和处理输入的声音信息,所以对相关硬件的设置十分重要。ViaVoice提供了硬件设置向导程序,用来选择端口,测试声卡和麦克风,根据使用环境设置了音频、音量。必须指出的是一个质量好的麦克风可以滤掉大部分背景噪音,并能在噪音较大的环境下有效地进行操作而不影响语音识别的准确率。一切准备就绪,可以试试对着计算机说话了!

  运行ViaVoice组件中的主程序-语音板程序,进入一个类似写字板的环境,在菜单中选择“开始听写”,扬声器里发出一句很简短的提示:“Now begin dictating!”我对着话筒清晰而缓慢地说“你好”,屏幕上果然跳出“你好”两个字。我不由发出几声惊叹,没想到屏幕上竟很敏感地出现了几个象声词。接下去我又随口说了几句话,这回就没有那么通顺了-屏幕上显示出来的听写结果,一个个短语还是对的,但其间还拼凑着一些莫名其妙的字,再试试,换了周围的人(此时我的身边围了一大堆同事)来念,也有各种各样的错误,或许这和我们的发音是否标准有关,也和软件的识别方式有关。按照软件中的帮助提示,应进行注册。

  所谓"注册"是这样一个过程:它通过让ViaVoice学习你的发音样式来提高你的听写识别率, ViaVo ice注册程序将编辑你的语音信息,创立你的个人语音样板,也就是说,这是学习过程。通过注册,软件分析各人不同的语音特征,用你的发音规律帮助判断识别你的语音。而在注册过程中,用户也能亲身体会到自己用什么样的语速语调,能最顺利最准确地被分析和接收。也算是个互相学习吧!注册将大大改善语音识别效果。

  注册分为两部分:对一套语句进行录音;注册训练,分析录好的声音信息。运行组件中的注册程序,出现用户和注册信息对话框。对于第一次注册,按程序提供的步骤,先念出一些指定的词语,比如“天空”、“海洋”,被程序成功地分析并接受后,就进入句子的注册。由于注册语句内容被巧妙地设计为ViaVoice软件自身的知识,我从自己一丝不苟的注册朗读中了解很多使用ViaVoice的技巧和注意事项,比如每个标点都要读出来-这使人想到相声中的“领导,冒号”,还有一些如"换行"等简单的格式安排命令也需要念给电脑听;再比如对于词句的间歇和停顿也很重要。一开始注册时,很多录入语句不能按正确内容被识别,但随着自己的语气逐渐平畅自然,通过率也就越来越高,录到三四十句,基本上已经没什么困难。ViaVoice开始适应我了-或者说我开始有点适应它了。全部注册内容包括两百多句话,整个过程大约需要一个多小时,幸好不必一次完成注册中的全部录音,可以采取逐次录入。但每次注册录音至少需要录入50条语句,之后的任何时间你都可以停止录音进行训练。

  注册后的训练是指ViaVoice使用录好的语句为你建立个人语音模型。训练过程将持续半个小时到一个小时,具体时间将取决于你录下的语句或短语数量和所用计算机的运行速度。计算机处理完注册以后, ViaVoice就可以以更高的正确率对输入的语音进行识别。另外,每天使用ViaVoice后,你的语音库文件都会得到更新和扩充,因此,定期的备份有助于保存日趋增加的语音词汇。

  全部注册完成后终于可以开始正规的听写了。在安静的环境下,以标准而清晰的语音进行听写会取得较好的效果;对含混不清且语速过快的语音,识别结果往往让人哭笑不得。看来对于电脑,有话要好好说。开始我对大声读出标点符号不太适应,总觉得平添了很多麻烦,时常忘记。然而这是语音录入所必须的,其实标点符号说得越自然,ViaVoice越能马上听懂,尤其是一些念起来稍复杂的,像“左书名号”“右书名号”“左引号”“右引号”“破折号”,以及“换行”、“另起一行”、“另起一段”等格式命令。习惯之后,我发现如果没有这些帮助手段,听写的文字便是一团乱麻。

  ViaVoice在熟悉了我的语音模板后,听写正确率果然大有改观。实际上,Via Voice之所以能接收和处理你的声音,是在一个庞大的词汇表数据库中检索你的语音。该词汇表包含30000个常用办公词汇,大部分计算机命令也被收录在内,此外,随着使用也能将词汇表扩充到65000个词,Via Voice以基本词汇表和用户的个人语音词汇表为标准来处理听写过程中接收的信息。当进行听写时,最后几个词是高亮显示,听写后面的词语时它们会发生变化。V ia Voice的这个特性被称为语言模型,面向中文的ViaVoice带有一个普通话样板的语言模型,基于上下文,将有助于更加准确地识别你所念的词。在我听写的几篇文章中,有一篇讲秘书工作的,由于其中大部分是办公词汇,听写了3 00多字,正确率竟高达100%。而且,通过不同人的实践可以发现,在听写方面,女音占有一定的优势,大概因为女音较细而清晰,容易被分析和识别。男音浑厚,很自然的带有一些胸腔的共鸣,有时会影响软件的分辨,但经认真注册,也可做到比较准确。对于讲方言、普通话不标准的人来说,则有一定的困难,这毕竟是普通话样板的语言模型,但如果有需求倒是也可以开发针对各种方言的语言识别产品。

  听写结束以后,回头看看屏幕上的文字,不可避免地存在需要更改和修正的地方。用ViaVoice语音板听写,纠错过程和其他字处理程序不同,主要因为ViaVoice有两种纠错方式-语音纠错和文本编辑。

  语音纠错:当ViaVoice发生错误时使用语音纠错。也就是说纠正那些ViaVoice识别错误的词。语音纠错将调整你的个人语音文件,从而使ViaVoice在以后“听到”该词时能将它识别出来。你的语音纠错次数越多,你的语音识别率也就越高。当你进行纠错时,将出现纠错弹出菜单。将一个词纠正为实际正确的发音后,ViaVoice会将这个词加入到你的个人语音文件中。

  文本编辑:当纠正自己所犯的文字、文法错误时使用文本编辑,换句话说就是ViaVoice的识别是正确的,而需要更改的是输入的内容本身。文本编辑不影响个人语音文件,不会改变声音和语言模型信息。例如,你念的是“小”,Vi aVoice也识别出是“小”字,但由于内容要求要改为“大”字,就应该采用文本编辑。

  由于上述语音纠错和文本编辑之间的区别关系到个人语音文件,分清何时该使用文本编辑改变一个识别正确的词,何时候该使用语音纠错纠正一个被误识的词是很重要的。两种修改方法的混乱使用至少会造成以下两种错误:屡教不改-不能从语音模型中根除误识,以后遇到该词还要犯相同错误;颠倒是非-把错误信息写入语音模型,取代原先正确的部分。

  开始用ViaVoice进行工作时,最好在每一段内容输入完后就停止听写,马上纠正所有的误识词。这样Via Voice将跟随你的工作进度进行学习,特别是当你需要引入一些新的术语时,这样做更为重要-早一点将新词汇教给电脑,并使其记住(修改个人语音模型),在以后的输入中,电脑便能够识别出来这些词,从而降低误识率。

  当然,语音板也有相同于其他字处理程序的强大编辑功能。比如说,可以将文本从语音板的文档窗口移至任何Win dows应用程序;在任何时候可以拖放文本和OLE对象进出语音板;可删除修改文本;在语音板口述文本后,你可以使用缺省的邮件客户应用程序通过网络将其发送给任何人;以多种文件格式保存你的工作等等。

  除此以外,ViaVoice可以面向多个用户,注册时使用不同的用户名,软件会自动针对不同的语音特征,建立不同的语音文件,所以听写时还有特别值得注意的事情,就是是否处于正确的用户环境,如果发生错误,很可能不知不觉地修改了他人的语音文件,导致混乱而给语音识别带来麻烦。利用多用户管理这个特性,一个人也可以多次注册,建立不同的语音文件,比如一个记者,有同等重要的室内和室外工作,他可以在安静环境下和在嘈杂环境下,建立两份语音文件,以适应不同的需要。

  所幸的是,ViaVoice提供了强大的联机帮助手册,可以随时利用索引查询所遇到的问题,帮助文件列出了详细的解决步骤和注意事项,使用户获得非常方便且及时的指导。

  ViaVoice的功能还有很多,作为一个初试者,我只是窥豹一斑。国外已有很多学者和职员成为这一产品的积极用户,他们的共同感觉就是一旦人们摆脱了手敲键盘、眼盯屏幕的输入方式,让源源不断的思维通过语言直接表达,注意力就会更集中更有效地投入到精彩的创作中来,正如人类解放了双手,才建设了今天的世界。试用过IBM ViaVoice 软件后,虽然感觉到它还存在很多需要改进的地方,但我还是为这一语音识别方面的重大技术成果而兴奋。从早期纯文本命令行的操作方式,到用鼠标轻松点击,再到人性化的语音输入,人机交流不断迈向新的高度。

 

posted @ 2009-04-24 17:16  阿拉密斯  阅读(1388)  评论(1编辑  收藏  举报