語音識別技術前景廣闊

微軟公司(Microsoft)和福特汽車公司(Ford
)希望人們能向汽車發出口頭指令﹐雖然短時間內實現這點的可能性不大。但實際上﹐人們早已和晶片進行口頭交流了﹐只是大家並沒有意識到而已。不僅如此﹐今後人們和晶片的交流還會越來越多。

自電腦問世以來﹐科學家們就一直致力於讓電腦能理解人們的講話。幾年前﹐除了實驗室內的演示之外﹐這方面還沒什麼進展。不過現在﹐電腦的語音識別功能已經相當先進﹐並被廣泛運用到各個領域﹐如汽車上。

不久前﹐在拉斯維加斯(Las Vegas)舉行的國際電子消費品展覽會上﹐比爾•蓋茨(Bill Gates)和福特汽車公司的高管們展示了微軟公司的Sync軟件是如何讓駕車者們通過口頭指令在車內播放音樂和撥打電話的。但是﹐通過口頭指令駕駛汽車還難以被廣泛運用﹐至少目前還不行。

新版的Windows操作系統Vista具有相當先進的內置語音識別軟件﹐但微軟公司在推銷Vista的時候並沒有大肆宣揚這一點。那些希望瞭解該軟件功能的用戶也許要在難以得到微軟大力幫助的情況下進行了。

目前﹐世面上最先進的電腦語音識別軟件是Naturally Speaking。該產品的來歷有點複雜:它出自於Nuance Communications﹐該公司的前身是ScanSoft。ScanSoft通過一系列的收購﹐如收購Dictaphone等﹐試圖將公司打造為全美最主要的語音識別技術供應商。

Naturally Speaking的大多數用戶認為該軟件運行效果不錯﹐儘管你的發音要比平時說話更清楚。用戶對著麥克風說話﹐屏幕上就顯示出說話的內容﹐很容易糾正識別錯誤。這樣一來﹐該軟件就會逐步適應用戶的說話風格﹐當然用戶也相應地調整了自己的說話風格﹐因此語音識別的正確率就會提高。

雖然通過口頭指令來控制電腦在科幻小說里屢見不鮮﹐但事實上大多數人覺得通過鍵盤和鼠標來控制電腦也很方便。比爾•邁森(Bill Meisel)對語音識別軟件市場很有研究﹐他指出﹐目前該軟件主要用於法律和醫學等特定領域。例如﹐放射線學者們越來越多地通過語音識別軟件口授診斷報告和結果﹐而不再由錄音機錄下口頭報告﹐再加以轉錄。

語音識別軟件是利用非常複雜的統計方法來把人們的講話與單詞相對應起來的。電腦功能的日益強大意味著這類電腦軟件如今能在交貨前被“訓練”數千個小時﹐而十年前只能“訓練”幾十個小時。

語音識別技術的主要應用領域之一就是呼叫中心。許多電腦查詢服務採用了這項技術﹐通常是Nuance公司的技術﹐來處理客戶的需求﹐而無需人工服務了。此外﹐較為複雜的銷售及支持工作也日益自動化了。如今﹐人們可以通過向航空公司的電腦發出口頭指令來購買或查詢機票。(雖然我對語音識別技術很感興趣﹐我個人還是喜歡與人交流。如果這些工作今後都由電腦取代﹐那真是太令人遺憾了。)

邁森還預計說﹐接下來﹐語音識別技術將被用於網絡搜索。預計在不久的將來﹐谷歌(Google)和雅虎(Yahoo)將推出面向手機用戶的語音搜索服務﹐用戶只要說出自己想找什麼﹐就可以聽到電腦的自動答復。這兩家公司都已聘請了語音識別技術專家。Nuance還在與雅虎對簿公堂﹐因為雅虎挖走了Nuance的13名工程師。

在語音識別技術研究方面一直頗為領先的國際商業機器公司(IBM)也有宏偉計劃﹐例如研製一種軟件能監聽四到五個人參加的小型會議﹐然後提供準確的書面記錄。由於大多數此類軟件目前只能識別單個說話者﹐IBM的計劃顯然有點超前。

不過﹐負責IBM的語音識別技術開發的戴維•那哈莫(David Nahamoo)表示﹐該公司已經開發出了其他一些應用軟件。其中一項是能自動翻譯外語廣播﹐如阿拉伯語廣播。該軟件首先通過語音識別技術記錄下說話者所說的話﹐然後通過翻譯軟件把外語翻譯成英語。

這個軟件目前還非常不成熟﹐但也足以翻譯出說話者的要點。對於缺乏阿拉伯語人才、但又想深入掌握阿拉伯世界動態的美國政府而言﹐該軟件不失為一個很好的選擇。

除了情報服務領域之外﹐該軟件的應用領域還不少呢。例如﹐各電視台目前承受很大壓力﹐公眾要求它們為聽覺有障礙的觀眾提供字幕服務﹐但電視台沒有人手。隨著時間的推移﹐採用軟件進行自動處理也許是個好方法。當然﹐這對於大學教授的講座也同樣適用:設想一下學生們可以在課堂上打瞌睡﹐同時又不會漏掉老師講的每個詞。

Lee Gomes

(編者按﹕本文作者Lee Gomes是《華爾街日報》專欄“Portals”的專欄作家﹐欄目內容以科技、商業及相關的主題為主。)
posted @ 2007-01-17 22:53  Rookie.Zhang  阅读(285)  评论(0编辑  收藏  举报