【五術堪輿學苑】

 找回密碼
 【立即註冊】
查看: 144|回復: 0
打印 上一主題 下一主題

【語音辨認】

[複製鏈接]
跳轉到指定樓層
作者
發表於 2012-11-23 03:54:43 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式

語音辨認

 

SpeechRecognition

 

【辭書名稱】教育大辭書

 

人類的語言系統是經幾千年來的演化而成的,其變化至少有數十萬種之多,再加上各地口音與慣用語的差異,要使用自然語言直接與電腦溝通,幾乎是不可能的事。

 

與人類相比較,電腦在計算方面有著明顯的優勢,數百、數千的運算,也不超過千分之一秒的時間,但是在語音辨識方面,電腦則遜色許多,因此,現有所採用的方式是採用固定的詞庫,電腦在收到一語音訊號後,將之分析並與其詞庫中的資料比對,找出一個最接近的「認定詞」,當做輸入的結果,這便是語音辨識的基本觀念。

 

目前各方面所做的研究,大多將辨認的條件加以限制,如特定語詞、少量字彙等,才能有較為人們滿意的成果。

 

以下為一般研究之分類:(1)特定語詞與非特定語詞:特定語詞(speakerdependent)是指該辨識系統只能辨識某些人的聲音,而對於其他人的語音輸入,辨識的結果將會大打折扣;

 

相對的,非特定語詞(speakerindependent)的辨識系統,則能對任何不特定之對象產生正確的回應結果;

 

(2)少量字彙與大量字彙:一個系統所能辨識字彙的多寡,除了所應用演算法的好壞之外,硬體速度及記憶體空間的大小,都是影響的關鍵。

 

但是隨著辨識字數的增加,字彙間的混淆程度也跟著大幅提升,因此,字彙量增加後,在搜尋上的複雜度亦相對地提升,使得回應時間加長;

 

(3)連續音與獨立音:人類自然說話是連續的語音,相信沒有人會斷斷續續說一句話;

 

但是在語音辨認的技術上,如何由連續的語音資料中,分辨出各字彙,卻是非常困難的;

 

(4)語言層次:多數的語音辨識運用,在於取代按鍵、開關的輸入裝置,如聲控電話、電視、音響、自動販賣機等等,而這些裝置的控制,可以簡化成一連串的命令,就像軍隊中的口令:「立正」、「敬禮」、「稍息」。

 

雖然語音辨認的技術有許多不同的作法,應用原理或許有些差異,但其主要架構皆如下圖所示:1.使用者說話:語音辨識的主要目的,就是分辨出使用者所說的話內容為何,因此,說話是首先的必要條件,通常使用者透過麥克風對系統下達命令,但進一步應用亦可為電話、無線電、行動電話等之輸入音源。

 

2.語音訊號接收介面:語音資料由外部進入辨識主機中,所接觸的介面就是語音接收單元,由於電腦所能處理的資料是數位形式,而聲音是類比的訊號。

 

因此,必須做類比和數位間的轉換,而轉換的精細度則與聲音的品質有關。

 

3.語音訊號處理:此部分的工作是語音辨認過程中最重要的一環,一般而言,包含端點偵測與特徵擷取。

 

基本語音資料在處理時,是以一小段時間為單位,構成所謂的音框(frame),而在處理時則不再以音框為基本單位。

 

4.樣本比對與訓練:語音的資料經過上述步驟處理完畢後,接著便是樣本比對的工作。

 

如何能正確地分辨出結果,是此部分的目的。

 

一般皆藉著各種不同的演算法和技巧,讓相似者更相似,而不同者的差距更加擴大。

 

語音辨認可應用的範圍甚廣,從日常生活以至於軍事應用,許多原本需要用手來操作的事情,皆可用語音來代勞。

 

以語音代替鍵盤輸入中文,使得人人皆能輕輕鬆鬆輸入中文。

 

除此之外,較為成功的應用,應屬於家電用品,如音響、電話方面的口令控制指令,以語音調整開關,或是按鈕、自動撥號等。

 

相信在不久將來,人們一定會想出更多的應用,使得語音辨認的技術,充分的融合在我們的生活之中。

 

 

轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary

評分

參與人數 1金幣 +500 收起 理由
天梁 值得鼓勵。

查看全部評分

【自由發言誠可貴、言辭水準需更高、若有污衊髒言顯、術龍五術堪輿學苑、不歡迎的喲!】
回復

使用道具 舉報

QQ|【google翻譯】|【手機版】|【Archiver】|【五術堪輿學苑】 ( 皖ICP備11003170號 )

GMT+8, 2024-9-21 01:41 , Processed in 0.078123 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回復 返回頂部 返回列表