【語音辨認】 SpeechRecognition
【辭書名稱】教育大辭書
人類的語言系統是經幾千年來的演化而成的,其變化至少有數十萬種之多,再加上各地口音與慣用語的差異,要使用自然語言直接與電腦溝通,幾乎是不可能的事。
與人類相比較,電腦在計算方面有著明顯的優勢,數百、數千的運算,也不超過千分之一秒的時間,但是在語音辨識方面,電腦則遜色許多,因此,現有所採用的方式是採用固定的詞庫,電腦在收到一語音訊號後,將之分析並與其詞庫中的資料比對,找出一個最接近的「認定詞」,當做輸入的結果,這便是語音辨識的基本觀念。
目前各方面所做的研究,大多將辨認的條件加以限制,如特定語詞、少量字彙等,才能有較為人們滿意的成果。
以下為一般研究之分類:(1)特定語詞與非特定語詞:特定語詞(speakerdependent)是指該辨識系統只能辨識某些人的聲音,而對於其他人的語音輸入,辨識的結果將會大打折扣;
相對的,非特定語詞(speakerindependent)的辨識系統,則能對任何不特定之對象產生正確的回應結果;
(2)少量字彙與大量字彙:一個系統所能辨識字彙的多寡,除了所應用演算法的好壞之外,硬體速度及記憶體空間的大小,都是影響的關鍵。
但是隨著辨識字數的增加,字彙間的混淆程度也跟著大幅提升,因此,字彙量增加後,在搜尋上的複雜度亦相對地提升,使得回應時間加長;
(3)連續音與獨立音:人類自然說話是連續的語音,相信沒有人會斷斷續續說一句話;
但是在語音辨認的技術上,如何由連續的語音資料中,分辨出各字彙,卻是非常困難的;
(4)語言層次:多數的語音辨識運用,在於取代按鍵、開關的輸入裝置,如聲控電話、電視、音響、自動販賣機等等,而這些裝置的控制,可以簡化成一連串的命令,就像軍隊中的口令:「立正」、「敬禮」、「稍息」。
雖然語音辨認的技術有許多不同的作法,應用原理或許有些差異,但其主要架構皆如下圖所示:1.使用者說話:語音辨識的主要目的,就是分辨出使用者所說的話內容為何,因此,說話是首先的必要條件,通常使用者透過麥克風對系統下達命令,但進一步應用亦可為電話、無線電、行動電話等之輸入音源。
2.語音訊號接收介面:語音資料由外部進入辨識主機中,所接觸的介面就是語音接收單元,由於電腦所能處理的資料是數位形式,而聲音是類比的訊號。
因此,必須做類比和數位間的轉換,而轉換的精細度則與聲音的品質有關。
3.語音訊號處理:此部分的工作是語音辨認過程中最重要的一環,一般而言,包含端點偵測與特徵擷取。
基本語音資料在處理時,是以一小段時間為單位,構成所謂的音框(frame),而在處理時則不再以音框為基本單位。
4.樣本比對與訓練:語音的資料經過上述步驟處理完畢後,接著便是樣本比對的工作。
如何能正確地分辨出結果,是此部分的目的。
一般皆藉著各種不同的演算法和技巧,讓相似者更相似,而不同者的差距更加擴大。
語音辨認可應用的範圍甚廣,從日常生活以至於軍事應用,許多原本需要用手來操作的事情,皆可用語音來代勞。
以語音代替鍵盤輸入中文,使得人人皆能輕輕鬆鬆輸入中文。
除此之外,較為成功的應用,應屬於家電用品,如音響、電話方面的口令控制指令,以語音調整開關,或是按鈕、自動撥號等。
相信在不久將來,人們一定會想出更多的應用,使得語音辨認的技術,充分的融合在我們的生活之中。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|