【語音辨認】

豐碩 · 發表於 2012-11-23 03:54:43

【語音辨認】

SpeechRecognition

【辭書名稱】教育大辭書

人類的語言系統是經幾千年來的演化而成的，其變化至少有數十萬種之多，再加上各地口音與慣用語的差異，要使用自然語言直接與電腦溝通，幾乎是不可能的事。

與人類相比較，電腦在計算方面有著明顯的優勢，數百、數千的運算，也不超過千分之一秒的時間，但是在語音辨識方面，電腦則遜色許多，因此，現有所採用的方式是採用固定的詞庫，電腦在收到一語音訊號後，將之分析並與其詞庫中的資料比對，找出一個最接近的「認定詞」，當做輸入的結果，這便是語音辨識的基本觀念。

目前各方面所做的研究，大多將辨認的條件加以限制，如特定語詞、少量字彙等，才能有較為人們滿意的成果。

以下為一般研究之分類：(1)特定語詞與非特定語詞：特定語詞(speakerdependent)是指該辨識系統只能辨識某些人的聲音，而對於其他人的語音輸入，辨識的結果將會大打折扣；

相對的，非特定語詞(speakerindependent)的辨識系統，則能對任何不特定之對象產生正確的回應結果；

(2)少量字彙與大量字彙：一個系統所能辨識字彙的多寡，除了所應用演算法的好壞之外，硬體速度及記憶體空間的大小，都是影響的關鍵。

但是隨著辨識字數的增加，字彙間的混淆程度也跟著大幅提升，因此，字彙量增加後，在搜尋上的複雜度亦相對地提升，使得回應時間加長；

(3)連續音與獨立音：人類自然說話是連續的語音，相信沒有人會斷斷續續說一句話；

但是在語音辨認的技術上，如何由連續的語音資料中，分辨出各字彙，卻是非常困難的；

(4)語言層次：多數的語音辨識運用，在於取代按鍵、開關的輸入裝置，如聲控電話、電視、音響、自動販賣機等等，而這些裝置的控制，可以簡化成一連串的命令，就像軍隊中的口令：「立正」、「敬禮」、「稍息」。

雖然語音辨認的技術有許多不同的作法，應用原理或許有些差異，但其主要架構皆如下圖所示：1.使用者說話：語音辨識的主要目的，就是分辨出使用者所說的話內容為何，因此，說話是首先的必要條件，通常使用者透過麥克風對系統下達命令，但進一步應用亦可為電話、無線電、行動電話等之輸入音源。

2.語音訊號接收介面：語音資料由外部進入辨識主機中，所接觸的介面就是語音接收單元，由於電腦所能處理的資料是數位形式，而聲音是類比的訊號。

因此，必須做類比和數位間的轉換，而轉換的精細度則與聲音的品質有關。

3.語音訊號處理：此部分的工作是語音辨認過程中最重要的一環，一般而言，包含端點偵測與特徵擷取。

基本語音資料在處理時，是以一小段時間為單位，構成所謂的音框(frame)，而在處理時則不再以音框為基本單位。

4.樣本比對與訓練：語音的資料經過上述步驟處理完畢後，接著便是樣本比對的工作。

如何能正確地分辨出結果，是此部分的目的。

一般皆藉著各種不同的演算法和技巧，讓相似者更相似，而不同者的差距更加擴大。

語音辨認可應用的範圍甚廣，從日常生活以至於軍事應用，許多原本需要用手來操作的事情，皆可用語音來代勞。

以語音代替鍵盤輸入中文，使得人人皆能輕輕鬆鬆輸入中文。

除此之外，較為成功的應用，應屬於家電用品，如音響、電話方面的口令控制指令，以語音調整開關，或是按鈕、自動撥號等。

相信在不久將來，人們一定會想出更多的應用，使得語音辨認的技術，充分的融合在我們的生活之中。

		自動登錄	找回密碼
密碼			【立即註冊】