語音輸入與識別技術
發展了幾十年之久的語音技術在計算機硬件和巨大應用的驅動下,已經從模式識別和人工智能的一個分支提升為一門綜合人類智能各項研究的獨立學科。
語音技術包括語音識別、說話人的鑒別和確認、語種的鑒別和確認、關鍵詞檢測和確認、語音合成、語音編碼等,其中最具有挑戰性和最富有應用前景的是語音識別技術。

|
近幾年來,由于語音輸入和聲控技術比手寫輸入方法來得更為方便、直接,漸漸開始流行起來,一些漢字基礎不大好的人,還把它作為首選的文字輸入手段。從我們的介紹中可以知道,自然界的聲音和人講話的語音,都是模擬信號,不能直接輸入計算機,因此在語音輸入的過程中,我們必須通過語音卡(也叫作聲霸卡)等設備,采用一定的編碼方法,把模擬的語音信號轉換為數字語音信號輸入計算機。計算機對輸入的數字語音信號有兩種處理方法,第一種跟筆繪板輸入手寫字一樣,只對其作簡單的存儲和傳輸,提供在計算機網絡或通信網絡上進行人與人之間直接或間接的語音通信;第二種是跟手寫字識別一樣,利用一定的人工智能技術(通常是計算機軟件,如著名的由IBM公司開發的ViaVoice軟件),對輸入的數字語音信號進行智能識別,并把它“翻譯”成計算機能夠理解的數字編碼信息,從而通過語音實現對計算機的簡單操作和控制。在某些情況下出于可靠性的考慮,也可以先把“翻譯”的結果通過顯示屏或其他方式反饋給輸入者,得到輸入者確認后再進行操作。語音輸入與識別技術有著廣闊的應用前景,例如要實現在計算機網絡或通信網絡上不同語言的人之間的直接交談、開會和其他合作工作,就需要這種技術。語音輸入與識別技術最大的弱點是,由于不同人的口音差別較大,語音的準確識別比較困難,這也成為其發展與改進的方向。
目前語音技術的應用分為以下幾大類:
(1)辦公室環境下桌面計算機中的一系列應用;
(2)完成人與計算機的對話功能;
(3)幫助人類不同語種之間的交流。
語音技術的滲透性很強,它將無處不在,在未來改變我們的生活方式。
“語音撥號”是世界上每個電話用戶最希望配備的首選功能。使用“語音撥號”,人們只需一次性地輸入(讀入)人名和電話號碼,在以后便可以直接對著電話“說出”要通話人的姓名,經語音識別后,查出該姓名所對應的號碼,然后自動地進行“撥號”。這就是未來的語音電話。
語音查詢是語音識別的又一個應用領域,可用于旅游業及服務業的各種查詢系統。如語音自動導游系統,游客只要說出自己當前的位置和感興趣的景點名稱,系統便自動顯示出圖文并茂的最佳路線、乘車方案、費用及其他相關信息。如果游客還需要進一步了解更為詳盡的資料,則可以同系統進行交互式的對話,系統將對用戶的問題逐一給予答復。
語音識別還可以用在工業控制方面,在一些工作環境惡劣、對人身有傷害的地方(如地下、深水及輻射、高溫等 )或手工難以操作的地方,均可通過語音發出相應的控制命令,讓設備完成各種工作。 語音識別技術在幫助傷殘人的各種設備中將發揮其難以替代的作用。對于肢體傷殘者或盲人,若全部用聲音控制,則給傷殘者或盲人提供了極大的生活便利。一些辦公設備加上語音功能后,即使是傷殘者也可以足不出戶地在家里工作。
在將來,人們外出后,可通過電話向自己的電腦管家發出指令,而電腦管家則會按照主人的意志安排家中的一切事務。
語音技術的應用還將推動其它產業的發展。國外的一些著名汽車公司已將語音技術用在汽車產品中,“數字式的、能聽說的、并具有一雙慧眼的、優良的后座駕駛式汽車”,只要車主告訴它行車路線和地點,便可直達目的地。目前,這種新式汽車已進入階段性的研究。
在計算機輔助教育方面,語音識別技術也有著廣闊的應用空間。通過語音識別技術,幫助學生進行語言學習,當學生跟著計算機發音學習外語時,計算機會自動判斷學習者的發音是否準確,并及時給予糾正。此時的計算機就成為專業的家庭輔導教師。 在一些對幼兒進行啟蒙教育的玩具中,語音玩具給小朋友們帶來來了無限的新奇感受,可以自動說話的娃娃、聽從指揮的小汽車等在兒童幼小的心靈里播下了科學的種子。
可以預見,在新的世紀里,語音識別將迅速走進大眾的生活,它將改變人們學習、工作和生活娛樂的方式,像尼葛洛龐帝所說:“在廣大浩瀚的宇宙中,數字化生存能使每個人變得更容易接近,孤寂者能夠發出他們的心聲。”
[上一頁] [下一頁]
|