中文字幕一二三区,亚洲国产片在线观看,国产网站午夜性色,亚洲国产综合精品2022

<menuitem id="ct2o2"><var id="ct2o2"></var></menuitem>
      1. <noscript id="ct2o2"><progress id="ct2o2"><i id="ct2o2"></i></progress></noscript>
        1. 期刊 科普 SCI期刊 投稿技巧 學(xué)術(shù) 出書

          首頁 > 優(yōu)秀范文 > 語音識別系統(tǒng)

          語音識別系統(tǒng)樣例十一篇

          時間:2022-09-23 08:59:15

          序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗,特別為您篩選了11篇語音識別系統(tǒng)范文。如果您需要更多原創(chuàng)資料,歡迎隨時與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!

          語音識別系統(tǒng)

          篇1

          在這個高科技的信息時代,計算機占著極為重要的地位,人機通信是人與機器之間進行信息通訊,使機器按照人的意愿工作,傳統(tǒng)的人機通信是通過鍵盤、按鈕以及顯示器等機器設(shè)備實現(xiàn)的,在許多場合都不是很方便,其最理想的通信方式就是通過語音進行識別。實現(xiàn)人與機器通過自然語音的方式進行信息通訊,不僅可以簡化日常工作,更可以提高工作效率,帶給人們極大的方便。而實現(xiàn)這個理想最關(guān)鍵的部分就是語音識別技術(shù)。

          1語音識別概述

          1.1語音信號的產(chǎn)生

          物體的振動產(chǎn)生聲音,正在發(fā)聲的物體叫做聲源,聲音在介質(zhì)中以聲波的形式傳播。語音是指人的發(fā)聲器官振動所發(fā)出的負載一定語言意義的聲音,發(fā)音器官主要有肺部、氣管、喉部、咽、鼻腔、口腔和上下唇,每個人的聲道各不相同,從而各自發(fā)出的聲音也不相同。

          語音信號主要有模擬信號和數(shù)字信號兩種表現(xiàn)形式。模擬信號是人直接通過耳朵聽到的信號,是時間和幅值均連續(xù)的物理量,由于其數(shù)據(jù)量過大、有較多的隨機因素等原因不能直接被作為計算機的識別信號。數(shù)字信號是時間和數(shù)值均離散的二進制數(shù)字量化的模擬信號,是計算機語音識別技術(shù)的基礎(chǔ)。數(shù)字信號相比模擬信號有以下優(yōu)點:可以實現(xiàn)很多復(fù)雜的信號處理工作;具有可靠性高、價格低廉、反應(yīng)迅速等特點;有利于區(qū)分出干擾信號等。所以要想使計算機按照人類的自然語言要求工作,關(guān)鍵的就是將模擬信號轉(zhuǎn)換為數(shù)字信號。

          1.2語音信號的處理

          根據(jù)討論,若要對語音信號進行處理必須先對此信號進行預(yù)處理,即將模擬信號轉(zhuǎn)換為數(shù)字信號,再整理、分析、理解轉(zhuǎn)換后的數(shù)字信號,并過濾掉多余的信息。主要包括數(shù)字化、預(yù)加重和加窗分幀三部分。

          數(shù)字化就是把語音模擬信號轉(zhuǎn)換為數(shù)字信號的采樣與量化過程,采樣是在相同間隔的時間內(nèi)抽取信號而得到離散的序列,并將其轉(zhuǎn)換為數(shù)字。量化則是在有限的區(qū)域內(nèi)分布采樣后的信號。預(yù)加重是通過一個高通濾波器使頻譜變得平坦,防止衰減作用,不受有限字長效應(yīng)的影響。以“幀”為單位對語音信號進行截取,使信號有短時平穩(wěn)的特征,加窗則可以讓截取的信號波形更加平滑。

          1.3語音信號的模塊處理

          在語音識別中,常使用的基本算法有:動態(tài)時間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)。

          1)隱馬爾可夫模型

          隱馬爾可夫模型(HMM)在當(dāng)前語音識別系統(tǒng)中占據(jù)主流地位。它是一種隨機概率模型,其使用大大降低了模型的復(fù)雜度。早在20世紀(jì)六七十年代就開始研究的統(tǒng)計信號模型。HMM是在Markov鏈的基礎(chǔ)上發(fā)展起來的,但實際問題要更為復(fù)雜,所觀察到的事件與一組概率分布相關(guān)。它是一個雙重隨機過程,一個是Markov鏈,這是基本隨機過程,它描述狀態(tài)的轉(zhuǎn)移;一個是隨機過程描述狀態(tài)和觀測值之間的統(tǒng)計對應(yīng)關(guān)系,觀察者不能直接看到狀態(tài),而是由感覺感知到的,因此稱之為“隱”Markov模型,即HMM。

          2)人工神經(jīng)網(wǎng)絡(luò)法

          ANN現(xiàn)在已經(jīng)成為了另一個熱點,是非線性系統(tǒng),具有DTW和HMM沒有的對比、概括、推理能力。

          3)動態(tài)時間規(guī)整技術(shù)

          DTW是模板訓(xùn)練和模式匹配中出現(xiàn)最早的技術(shù),使用動態(tài)規(guī)劃技術(shù)在孤立詞語音識別中具有良好的成果,但是其計算量較大,很難被使用到現(xiàn)實中的語音識別。目前已經(jīng)被其他的算法所替代。

          2語音識別系統(tǒng)設(shè)計思路

          語音識別技術(shù)正在不斷的發(fā)展中,在硬件平臺上實現(xiàn)語音識別以取代繁瑣的工作成為其發(fā)展的必然趨勢。本文就是對基于單片機的語音識別系統(tǒng)的研究。由于單片機本身存在著處理速度慢、存儲能力不強大的缺陷,所以此次設(shè)計是基于孤立詞的語音識別系統(tǒng)。

          語音識別系統(tǒng)的模型庫訓(xùn)練工作原理是:特定人的語音信號進入系統(tǒng),系統(tǒng)對進入的語音信號濾波,目的是為了消除需要的語音頻率之外的其他雜音,進而數(shù)模轉(zhuǎn)換,將輸入的語音模擬信號數(shù)字化,有利于計算機進行識別。數(shù)字化后的語音信號再通過預(yù)處理、加窗分幀。對于剩下的語音信號送入HMM模板與模板庫進行訓(xùn)練和匹配,再將最佳的結(jié)果傳輸給用戶。

          3系統(tǒng)模塊設(shè)計及系統(tǒng)測試

          此次設(shè)計是基于單片機的語音識別系統(tǒng)研究,有以下幾點要求:該系統(tǒng)必須使完整的語音識別系統(tǒng),有簡單的顯示功能,提高系統(tǒng)的識別性能,體積盡量減小。

          工作原理首先采集語音信號,輸入完成后通過濾波采集需要的語音信號,再通過數(shù)模轉(zhuǎn)換器進入控制器,再與標(biāo)準(zhǔn)語音庫中的語音信號進行對比,找出最接近該段信號的語音,再將識別出的語音通過LCD顯示模塊顯示給用戶。

          系統(tǒng)檢測首先確認(rèn)是否有按鍵按下,當(dāng)檢測到有按鍵按下時,表示系統(tǒng)開始運行,如果沒有按下,則表示系統(tǒng)處于非工作狀態(tài),只有當(dāng)有按鍵時,才可以工作。進而開始接收語音信號,首先對語音信號進行濾波消除雜音,然后通過數(shù)模轉(zhuǎn)換電路,將模擬信號轉(zhuǎn)換為數(shù)字信號,預(yù)處理、端點檢測后,與事先存儲好的信號進行比對,得到最后的識別結(jié)果,將識別出來的結(jié)果,送往LCD液晶顯示器上顯示出來,展現(xiàn)給用戶。

          此次設(shè)計通過MATLAB軟件實現(xiàn)對語音信號的調(diào)試。在接收語音信號時,有可能產(chǎn)生外界的干擾噪聲,這就需要我們通過一系列復(fù)雜的公式計算,對該信號進行處理,進而在送由單片機進行下一步的工作。

          4結(jié)束語

          語音識別技術(shù)是實現(xiàn)人與計算機進行直接對話,讓計算機自動對人所說的話進行識別、理解并執(zhí)行的技術(shù)手段。語音識別技術(shù)的應(yīng)用已經(jīng)成為一個被受關(guān)注的新型技術(shù)產(chǎn)業(yè),它的實現(xiàn)能夠簡化人們在以往工作中的繁瑣,未來語音識別還要向低成本、高性能方向不斷發(fā)展。

          篇2

          一、引言

          語音作為語言的聲學(xué)體現(xiàn),也是人類進行信息交流最自然、和諧的手段。與機械設(shè)各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術(shù),也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

          二、語音信號分析與特征提取

          1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵聲道便會產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過時便會產(chǎn)生湍流,會得到一種相似噪聲的激勵,對應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預(yù)測倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測技術(shù)進而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號通過z進行變換以后再取其對數(shù),求反z變換所得到的譜。線性預(yù)測分析方法其實就是一種譜的估計方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵和信號的譜包絡(luò),對IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測模型直接獲得的,而又被稱為LPC倒譜系數(shù)(LPCC)。

          2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對于聲音頻率高低和聲波實際的頻率高低不是線性的關(guān)系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因為另外的身影的出現(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對頻率群進行劃分會出現(xiàn)許多的很小的部分,每一個部分都會對應(yīng)一個頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過程中。所以在進行相應(yīng)的聲學(xué)測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計算過程:

          篇3

          1 引言

          語音識別是信息處理領(lǐng)域的一個重要方向,語音識別通常又可以分為兩種工作方式:一種是連續(xù)語音聽寫,這種方式需要語音識別引擎對語音聽寫過程中上下文以及相同相似發(fā)音的詞語進行分析、做出判斷,實現(xiàn)難度較大。另一種是命令與控制方式(command and control),在此種方式下,語音識別引擎可以通過對簡短的命令語音進行識別,以便執(zhí)行相應(yīng)操作。

          語音識別技術(shù)基礎(chǔ)是非常復(fù)雜的。正是如此,它獲得了世界上著名的公司與研究機構(gòu)的青睞,語音識別技術(shù)正經(jīng)歷著日新月異的改變,其中一些產(chǎn)品已經(jīng)取得較好的效果,用戶可以在上述產(chǎn)品基礎(chǔ)之上進行二次開發(fā)。

          2開發(fā)圖片語音識別系統(tǒng)的條件

          語音識別技術(shù)的發(fā)展涉及人機交互,自然語言處理,人工智能。這使開發(fā)人員難以從底層進行應(yīng)用開發(fā),欣慰的是一些公司與研究機構(gòu)已經(jīng)推出他們的研究成果,并且提供了供開發(fā)人員使用的開發(fā)平臺與接口。其中影響比較大的有微軟的SAPI、劍橋大學(xué)的HTK,IBM的via voice開發(fā)平臺。本文采用微軟的Speech SDK5.1開發(fā)包,它不僅是一個免費的開發(fā)包,同時提供對中文的支持。

          2.1微軟SAPI簡介

          微軟的 Speech SDK是基于 C O M 的視窗操作系統(tǒng)開發(fā)工具包。這個 SDK中含有語音應(yīng)用程序接口( SAPI )、微軟連續(xù)語音識別引擎(MCSR)以及串聯(lián)語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對于低層控制和高度適應(yīng)性的直接語音管理、訓(xùn)練向?qū)?、事件?語法、 編譯、資源、語音識別管理以及文本到語音管理,其結(jié)構(gòu)如圖 l 所示。

          圖1 SAPI結(jié)構(gòu)

          SAPI API在應(yīng)用程序和語音引擎之間提供一個高級別的接口。SAPI實現(xiàn)了所有必需的對各種語音引擎的實時的控制和管理等低級別的細節(jié)。

          SAPI引擎的兩個基本類型是文本語音轉(zhuǎn)換系統(tǒng)(TTS)和語音識別系統(tǒng)。TTS系統(tǒng)使用合成語音合成文本字符串和文件到聲音音頻流。語音識別技術(shù)轉(zhuǎn)換人類的聲音語音流到可讀的文本字符串或者文件。

          2.2 在.net應(yīng)用程序中使用SAPI的準(zhǔn)備

          安裝SAPI 5.1語音開發(fā)包。

          由于SAPI基于Windows平臺,通過COM接口供.net平臺調(diào)用,所以具體調(diào)用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對SAPI命名空間的引用:using SpeechLib。

          3 系統(tǒng)模型設(shè)計及實現(xiàn)

          3.1 創(chuàng)立系統(tǒng)界面

           

          圖2 系統(tǒng)界面一覽

          3.2  使用SAPI語音識別核心類

          ISpRecognizer類是支持語音識別的核心類,主要用于訪問MCSR實現(xiàn)語音識別。在進行語音識別時,微軟Speech SDK 5.1 支持兩種模式的語音識別引擎:共享(Share)和獨享(InProc)。在本系統(tǒng)中,我們使用共享型語音識別引擎,CLSID_SpSharedRecognizer。

          SpSharedRecoContext類是語音識別上下文接口,它可以發(fā)送與接收消息通知,通過CreateGrammar方法創(chuàng)建語法規(guī)則。通過對它的兩個事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫,我們可以很輕松的得到當(dāng)前語音識別結(jié)果。第一個事件對應(yīng)的就是識別結(jié)果顯示:1、第二個事件對應(yīng)的就是識別結(jié)果顯示;2、ISpeechRecoGrammar類是語法規(guī)則接口,定義語音識別引擎需要是別的語音類容。起語法規(guī)則可以分為聽寫型與命令控制型。聽寫型可以識別大詞匯量語音,但是別效率與識別準(zhǔn)確率較低。命令控制型有針對性的對特定語音進行識別,在效率與準(zhǔn)確率上都非常高。

          當(dāng)然一個ISpRecognizer不管是共享還是獨享,都可以有多個RecoContext與其關(guān)聯(lián),而一個RecoContext也可以與多個ISpeechReco  Grammar關(guān)聯(lián),每個ISpeechRecoGramma  r識別各自規(guī)定的內(nèi)容。

           

          圖3 語音識別類對應(yīng)關(guān)系

          3.3  編寫系統(tǒng)核心代碼

          通過讀入外部Grammar配置語音識別引擎,外部Grammar文件以xml文件格式存儲。具體形式如下:

          ManegePic.xml

          玫瑰

          大象

          獅子

          老虎

          仙人掌

          珠穆朗瑪峰

          布達拉宮

          貂蟬

          十字軍

          世界杯

          阿里巴巴

          乒乓球

          五星紅旗

          ……

          采用命令控制型Grammar是為了使語音識別結(jié)果準(zhǔn)確有效,定義外部Grammar是為了保持以后系統(tǒng)的可擴展性。對于新輸入的圖片,只要將圖片名字加入到 圖片名字

          中即可。

          開始語音輸入事件:

          private void btnStart_Click(object sender, EventArgs e)

          {

          ssrc = new SpSharedRecoContext();

          srg = ssrc.CreateGrammar(1);

          srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

          //讀入規(guī)則

          ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

          //添加識別最終事件 

          ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

          //添加識別懷疑事件

          srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

          //激活規(guī)則 

          }

          其中識別最終事件是系統(tǒng)在完整處理輸入音頻之后得到的最后識別結(jié)果,懷疑事件則是因為系統(tǒng)在處理過程中的最相似識別結(jié)果。這兩個事件在一些環(huán)境之下得到的識別結(jié)果不同。

          識別懷疑事件:

          private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

          {

            textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

          }

          將系統(tǒng)在處理過程中的最相似結(jié)果顯示在textBox控件之中。

          識別最終事件:

          void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

          {

          textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

          // 將系統(tǒng)最終結(jié)果顯示在textBox控件之中。

          try

          {

          Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

          //顯示識別結(jié)果的圖片

          }

          Catch (Exception e)

          {}

          }

          由于篇幅有限,這里僅僅給出了構(gòu)建語音識別引擎與圖片顯示部分的代碼。完 整的系統(tǒng)可以在Windows XP + vs2008環(huán)境中調(diào)試通過,實現(xiàn)基于.net和SAPI的圖片語音識別系統(tǒng)。

          4 結(jié)語

          通過制作圖片語音識別系統(tǒng),對利用SAPI進行語音識別有了初步的研究和實踐,該系統(tǒng)具有一定的擴展性,也可以作為子系統(tǒng)嵌入到其他系統(tǒng)之中。該系統(tǒng)的功能可以擴展到語音控制文件操作,比如打開/關(guān)閉文件,添加文件,可以制作一個不需要鍵盤鼠標(biāo)只利用語音就可進行操作的軟件系統(tǒng)。

          參考文獻:

          篇4

          中圖分類號:TP319文獻標(biāo)識碼:A文章編號文章編號:16727800(2013)0010010304

          作者簡介:王曉丹(1981-),女,碩士,延邊大學(xué)工學(xué)院講師,研究方向為語音識別、模式識別;金國哲(1983-),男,碩士,延邊大學(xué)工學(xué)院講師,研究方向為游戲軟件。

          0引言

          語音識別是讓機器自動識別和理解語音信號,并把語音信號轉(zhuǎn)化為相應(yīng)的文本或命令的技術(shù)[1]。語音識別技術(shù)的解決將不僅使計算機成為普通百姓得心應(yīng)手的工具,而且對于許多機器的操作、生產(chǎn)過程的控制,還有通信、口語機器翻譯等領(lǐng)域來說,語音識別都大有用武之地[2]。目前,信息產(chǎn)業(yè)發(fā)展迅速,方便、快捷、高效的電子產(chǎn)品越來越受到用戶的青睞。語音識別作為人機交互的一項關(guān)鍵技術(shù),具備了這樣的特點,特別在一些特定的環(huán)境或是對于一些特定的人,語音識別可以帶來很大的方便。語音識別系統(tǒng)實際上屬于一種模式識別系統(tǒng),它包括特征提取、模式匹配、參考模式庫等基本單元,其原理如圖1所示。

          輸入的模擬語音信號首先進行預(yù)處理,包括預(yù)加重、分幀處理、數(shù)模轉(zhuǎn)換、自動增益控制等過程。為了從每一個詞條中提取出隨時間變化的語音特征序列,作為一個模型保存為參考模板,就要對預(yù)處理后的語音信號進行特征參數(shù)提取。待識別的語音信號同樣經(jīng)過特征參數(shù)提取后生成測試模板。對語音的識別過程即是將測試模板與參考模板進行匹配的過程,識別結(jié)果即是相似率最高的一個參考模板。對于輸入信號計算測定,再根據(jù)若干準(zhǔn)則和專家知識,來判決選出最終結(jié)果并由識別系統(tǒng)輸出。語音識別系統(tǒng)設(shè)計要考慮服務(wù)對象、詞表大小、工作環(huán)境、發(fā)音方式、任務(wù)性質(zhì)等許多因素,不同的應(yīng)用需要采用不同的方法實現(xiàn),才能達到理想的效果[3]。本文所采用的朝鮮語緊急呼叫號碼的語音識別系統(tǒng)采用后文所述的幾個步驟和方法。

          1預(yù)處理

          本設(shè)計中對語音信號的預(yù)處理過程包括預(yù)加重、分幀處理及窗化處理。

          1.1語音信號的預(yù)加重

          采用預(yù)加重方法處理語音信號能補償語音信號的固有衰落,而且能有效地消除唇輻射的影響[4]。該方法的傳遞函數(shù)為:H(z)=1-0.94z-1(1)

          設(shè)S(n)為輸入的語音信號,經(jīng)過預(yù)加重后得到的信號為:

          中找出語音的開始和終止點。確定語音信號的起止點能更好地對語音信號進行識別,從而提高系統(tǒng)識別率和獲取到更好的語音特征參數(shù)。端點檢測的常用方法有短時過零率、短時平均能量、基于熵的特征、短時頻域處理等幾種[6]。本文中端點檢測部分選擇短時平均能量和短時過零率相結(jié)合的方法。清音的過零率要高于濁音和靜音部分,因此短時過零率可用于確定清音。而濁音和清音的時域能量要高于靜音部分,所以短時時域平均能量可用于確定濁音。在進行語音檢測時,首先找出哪一幀語音的能量超過能量門限,然后往前根據(jù)過零率確定語音的起點,同樣方法可確定語音的終點。

          2特征提取如何選擇語音特征直接關(guān)系到最終的識別效果。每段語音經(jīng)過特征提取后具有了各自的特征值,特征間的距離量度反映出語音間的相似度。因此特征選擇的標(biāo)準(zhǔn)應(yīng)使得異音字特征間的距離盡量大,同音字間的距離盡量小。同時,在保持高識別率的情況下,還應(yīng)盡量減少特征維數(shù),以減小特征參數(shù)的計算量。人耳對200Hz到5kHz之間的語音信號最為敏感,高音不容易掩蔽低音,反之則較容易,高頻處的聲音掩蔽的臨界帶寬較低頻端小。因此本文的朝鮮語孤立詞語音識別系統(tǒng)首先采用在Mel頻率軸上均勻分布的三角形濾波器,設(shè)

          圖3語音識別仿真過程

          Step3:對分幀處理后的每幀信號求MFCC系數(shù)。Step4:通過DTW算法求出測試模板與參考模板的特征參數(shù),選擇差值最小的作為輸出結(jié)果。語音控制器選用“Cool Edit Pro V2.1”進行錄音采樣。Cool Edit Pro 是美國 Adobe Systems 公司開發(fā)的一款功能強大、效果出色的多軌錄音和音頻處理軟件。該軟件可提供多種特效為作品增色,如壓縮、擴展、延遲、降噪、回聲、失真等。并且可同時在幾個文件中進行剪切、粘貼、合并、重疊聲音的操作,還可以生成靜音、噪音、低音、電話信號等。本文采樣率為8 000Hz,聲道為單聲道,采樣精度為16位。語音庫需要對朝鮮語的“”、“”、“”、“”、“”這幾個詞進行錄音采樣。采集到的音頻信號,經(jīng)過Matlab提供的wav文件讀寫函數(shù),以及聲卡的錄音和放音函數(shù),可以實現(xiàn)某些語音信號處理工作。語音工具箱voicebox為實現(xiàn)語音識別提供了許多實用函數(shù)。本語音識別系統(tǒng)的文件包含15個模板語音文件,25個語音庫文件和5個處理函數(shù)。

          以下分別就5種韓國緊急電話號碼進行了識別實驗,并對結(jié)果進行了部分截圖,實驗結(jié)果包含模板波形圖和測試結(jié)果。第一組是天氣預(yù)報電話號碼131;第二組是報警電話號碼112;第三組是火警電話號碼119;第四組是電話咨詢號碼114;第五組是海洋咨詢電話號碼。如圖4和圖5是分別對韓國火警電話119的采樣后的語音波形圖和識別結(jié)果。

          通過對特定人朝鮮語呼叫號碼的語音識別結(jié)果的分析,可以得出以下結(jié)論:①在語音庫樣本數(shù)量足夠,相關(guān)被測人數(shù)適當(dāng)?shù)那闆r下,DTW算法能夠有效地識別語音控制指令;②識別效果與測試內(nèi)容緊密相關(guān),對于、這類數(shù)字,該算法完全可以準(zhǔn)確識別出結(jié)果;③對

          于有連讀發(fā)音的號碼、、等,由于個人發(fā)音特點的差異,該算法會偶爾出現(xiàn)識別錯誤的現(xiàn)象,但錯誤率在6%以下。

          5結(jié)語

          本文實現(xiàn)了朝鮮語緊急呼叫號碼語音識別系統(tǒng)的軟件算法部分。其過程主要包括:語音預(yù)加重處理、短時能量和過零率兩級端點檢測算法進行端點檢測、MFCC算法進行語音特征參數(shù)提取等。綜合考慮環(huán)境、算法復(fù)雜度等因素,DTW算法能夠既簡單又有效地識別朝鮮語緊急呼叫號碼。通過MATLAB仿真實驗,驗證了該算法識別朝鮮語詞匯的準(zhǔn)確率較高。出錯的主要原因有:①靜音部分過長和無靜音時的差別;②朝鮮語發(fā)音規(guī)則決定個人發(fā)音特點的差異較大。這些問題都有待進一步研究。

          參考文獻:

          [1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.

          [2]陳尚勤.近代語音識別[M].成都:電子科技大學(xué)出版社,1991.

          篇5

          關(guān)鍵詞: 擬人機器人; 雙CPU; 語音識別系統(tǒng); 硬件設(shè)計

          中圖分類號:TP319 文獻標(biāo)志碼:A 文章編號:1006-8228(2013)01-01-02

          Design of hardware of speech recognition system in humanized robot

          Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

          (North China of Technology, Beijing 100144, China)

          Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

          Key words: humanoid robot; double CPU; speech recognition system; hardware design

          0 引言

          隨著超大規(guī)模集成電路和數(shù)字信號處理器(DSP)的快速發(fā)展,DSP的應(yīng)用越來越廣泛,涉及到各個領(lǐng)域如語音處理,圖像處理等方面?,F(xiàn)在語音識別中許多復(fù)雜算法已經(jīng)能夠在硬件上實現(xiàn)。最近十多年來,已研發(fā)出不少應(yīng)用于不同領(lǐng)域的便攜式語音識別系統(tǒng)。DSP處理速度快、靈活、精確,滿足了對信號快速、實時、精確處理的要求,所以很適用于語音識別。

          1 擬人機器人語音識別方法概述

          語音信號分析是語音識別的前提和基礎(chǔ),只有分析出可表示語音信號本質(zhì)特征的參數(shù),才可能利用這些參數(shù)進行高效的語音通信,才能建立用于識別的模板或知識庫。語音識別率的高低取決于對語音信號分析的準(zhǔn)確性和精確性,雖然語音信號具有時變特性,但在一個短時間范圍內(nèi)其特性相對穩(wěn)定,因而可以將其看作是一個短時平穩(wěn)過程。任何對語音的分析和處理均建立在“短時”的基礎(chǔ)上,一般認(rèn)為語音信號在10-30ms的短時間內(nèi)是相對平穩(wěn)的。

          擬人機器人語音識別方法如圖1所示,采集到的語音信號輸入后,首先對語音信號進行預(yù)處理,預(yù)處理主要包括:語音信號電壓放大采樣、反混疊失真濾波、預(yù)加重、自動增益控制、分幀、加窗、語音增強、端點檢測以及A/D轉(zhuǎn)換等環(huán)節(jié);然后是信號特征量的提取(本文對信號的特征量進行Mel頻率倒譜系數(shù)[2](Mel-Frequency Cestrum Coefficients)處理);最后對建立好的參數(shù)模板進行對比,測試的依據(jù)是失真度最小準(zhǔn)則,如本文用到的動態(tài)時間規(guī)整DTW[3](Dynamic Time Warping)。

          2 系統(tǒng)硬件設(shè)計

          通過針對擬人機器人的特點,對系統(tǒng)進行分析和方案設(shè)計,最終確定本系統(tǒng)的框圖如圖2所示。本系統(tǒng)的硬件基于一個以DSP(TMS320VC5416)為主處理器的硬件平臺,硬件平臺主要包括:語音輸入輸出模塊、主處理器DSP模塊、存儲器模塊、單片機MCU模塊、485串口通信模塊。其中語音輸入輸出模塊實現(xiàn)了語音信號的采集和輸出;主處理器DSP模塊(TMS320VC5416)主要完成語音識別所需的計算,其性能能夠達到實時處理的要求;存儲器模塊包括一片F(xiàn)LASH和兩片SRAM,用FLASH作為DSP的可編程存儲器,SRAM分別作為DSP的數(shù)據(jù)和程序存儲器;單片機MCU模塊完成對擬人機器人的運動控制;485串口通信模塊實現(xiàn)單片機MCU和PC機之間的通信。

          2.1 主處理器DSP模塊介紹

          TMS320VC5416(簡稱VC5416)是TI公司的C54X家族的成員之一,它是基于先進的改進哈佛結(jié)構(gòu)的16位定點DSP。它具有C54X的共同特點,高性能低功耗,具有高達160MHz的主頻,核心電壓1.5V,運行于此頻率時功耗僅為90mW;擁有一條程序總線和三條數(shù)據(jù)總線,片內(nèi)集成有高度并行性的算術(shù)邏輯單元(ALU)、專有硬件邏輯、片內(nèi)存儲器和片內(nèi)外設(shè)等。

          篇6

          自動語音識別研究起始于上世紀(jì)50年代,80年代最大突破是隱馬爾科夫模型(HMM)的應(yīng)用,語音識別研究重點從特定人、小詞表、孤立詞語音識別向非特定人、大詞表、連續(xù)語音識別轉(zhuǎn)移;90年代以來,語音識別在模型細化、參數(shù)提取和優(yōu)化、系統(tǒng)自適應(yīng)方面取得重大突破.進入本世紀(jì),著名的研究機構(gòu)和公司,如劍橋大學(xué)、IBM、CMU大學(xué)、微軟、貝爾實驗室等機構(gòu)的大詞表連續(xù)語音識別系統(tǒng)對特定說話人的識別率達到95%左右.面對中國未來市場,國外IBM、APPLE、MOTOROLA等公司投入到漢語語音識別系統(tǒng)的開發(fā).

          我國語音識別研究雖然起步較晚,但發(fā)展發(fā)展迅速,中國科學(xué)院自動化研究所、聲學(xué)研究所及清華大學(xué)、北京交通大學(xué)等機構(gòu)都開展了語音識別的研究,總體上,漢語連續(xù)語音識別的研究與國外先進技術(shù)相差不大。

          實際環(huán)境對語音識別的聲學(xué)噪聲魯棒性要求越來越高,因此,提取具有魯棒性和較強區(qū)分能力的特征向量對語音識別系統(tǒng)具有重要的意義.目前常用的聲學(xué)特征參數(shù)有基于線性預(yù)測分析(LPC)的倒譜LPCC、基于Mel頻率彎折的倒譜MFCC及基于聽覺模型的感知線性預(yù)測(PLP)分析等.

          由于考慮到人耳的聽覺特性,Mel倒譜系數(shù)或感知線性預(yù)測系數(shù)已經(jīng)成為目前主流的語音特征向量提取方法之一,加上它們的一階、二階差分以及對特征向量進行歸一化處理以后,在大詞匯量連續(xù)語音識別問題上取得不錯的結(jié)果。為了使系統(tǒng)具有較好的魯棒性,通常要對語音識別系統(tǒng)的前端進行預(yù)處理.

          雖然語音信號是非平穩(wěn)信號,但在一個小的時段內(nèi)具有相對的穩(wěn)定性,因此在對語音信號進行分析時,我們總是假定語音信號在一個時間幀(frame)內(nèi)是平穩(wěn)信號,這就是語音信號的短時分析假設(shè)。通常一幀大約為20ms左右。對一幀信號通過加Hamming 窗、Hanning 窗或矩形窗后再進行特征分析就可以得到相應(yīng)的一組特征,然后通過把分析窗移動一個偏移(稱為幀移,通常為一幀的1/2或1/3),然后進行下一幀的處理。

          1.MFCC的計算

          Mel頻率倒譜參數(shù)(MFCC),著眼于人耳的聽覺特性。人耳所聽到的聲音的高低與聲音的頻率并不成線性正比關(guān)系,從人類聽覺系統(tǒng)的研究成果來看,人耳分辨聲音頻率的過程猶如一種取對數(shù)的功能,而Mel頻率尺度則更符合人耳的聽覺特性。

          類似于臨界頻帶的劃分,可以將語音頻率劃分成一系列三角形的濾波器序列,即Mel濾波器組。Mel頻率和頻率的關(guān)系如下:

          Mel(f)=2595lg(1+f/700)

          Mel頻率帶寬隨頻率的增長而變化,在1000Hz以下,大致呈線性分布,帶寬為100Hz左右,在1000Hz以上呈對數(shù)增長。將頻譜通過24個三角濾波器,其中中心頻率在1000Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布,1000Hz以上為等比數(shù)列分布。

          圖1 Mel三角濾波器

          MFCC的具體計算過程如下:

          1) 由原始信號計算其DFT,得到離散譜{S n n N} t ( ) = 1,2,..., ;

          2) 三角濾波器的輸出則為此頻率帶寬內(nèi)所有信號幅度譜加權(quán)和。

          l = 1,2,....,24

          3) 對所有濾波器輸出作對數(shù)運算

          ln(y(l))l= 1,2,....,24

          4) 作離散余弦變換(DCT)得到Mel頻率倒譜參數(shù)(MFCC)。

          i = 1,2,...,P,P為MFCC參數(shù)的階數(shù),取P=12.

          2.PLP的計算

          感知線性預(yù)測(PLP)技術(shù)涉及到聽力、心理、物理學(xué)的三個概念:(1)臨界波段頻譜分辨率;(2)等響度曲線;(3)強度-響度功率定律。使用一個自回歸全極點模型去逼近聽覺頻譜。5階的全極點模型能有效地抑制聽覺頻譜中與話者有關(guān)的細節(jié)信息。與傳統(tǒng)的線性預(yù)測(LP)分析相比,在強調(diào)聽覺這方面,PLP分析更為合理。

          PLP分析流程:

          (1)使用FFT用對原始信號從時域變換到頻域,得到功率譜 ;

          (2)關(guān)鍵波段頻譜分析(Critical-band spectral resolution):以不同于Mel頻譜分析的新的臨界波段曲線進行分段離散卷積,產(chǎn)生臨界波段功率譜的樣點.

          (3)等響度預(yù)加重(Equal-loudness pre-emphasis):樣值化的通過模擬的等響度曲線進行預(yù)加重

          (4) 利用強度-響度冪律(Intensity-loudness power law)進行立方根幅度壓縮

          (5) 自回歸建模(auto-regressive modeling):利用全極點頻譜建模的自相關(guān)方法由全極點模型的頻譜去逼近 。基本原理是:對Φ(Ω)進行逆DFT變換,產(chǎn)生自相關(guān)函數(shù)。前M+1個自相關(guān)值用于從Yule-Walker方程中解出M階全極點模型的自回歸系數(shù)。

          3.實驗結(jié)果

          分別提取12維PLP和MFCC特征參數(shù),1維歸一化短時能量,并求其一階差分及二階差分,共39維MFCC和PLP特征參數(shù).

          以音素為聲學(xué)建模單元,采用5狀態(tài)的連續(xù)HMM模型(見圖2),其中1、5狀態(tài)只起連接作用,沒有觀測概率,第2、3、4狀態(tài)有GMM概率分布,假設(shè)特征參數(shù)是相互獨立的,所以規(guī)定協(xié)方差矩陣為對角陣。

          圖2 五狀態(tài)HMM模型結(jié)構(gòu)

          聲學(xué)模型的訓(xùn)練基于4007句朗讀式的特定人男聲語料,共2.84小時,結(jié)合藏語語言學(xué)和語音學(xué)的研究成果,對拉薩話中全部50個音素進行分類,共劃分了38個音素類別集,對全部72個聲韻母設(shè)計了72個類別集,根據(jù)其前后語境分別建立決策樹問題集,生成決策樹,生成三音子模型后逐步增加高斯混合度。

          選擇50句短句作為測試集,測試集與訓(xùn)練集為同一發(fā)音人,但發(fā)音文本完全獨立,同時,測試集語料與語言模型的訓(xùn)練語料也完全獨立,測試集共有885個單音節(jié),其中界外詞(OOV)25個,全部為緊縮音節(jié)。

          當(dāng)特征參數(shù)分別為PLP和MFCC時,實驗結(jié)果如下(三音子triphone模型的狀態(tài)數(shù)為584):

          由藏語大詞表連續(xù)語音識別的實驗結(jié)果來看,PLP和MFCC的效果相差不大。

          參考文獻

          [1] Lawrence Rabiner, Biing-Hwang Juang. Fundamentals of Speech Recognition[M].北京:清華大學(xué)出版社.1993

          [2] 鄭方,吳文虎,方棣棠. 連續(xù)無限制語音流中關(guān)鍵詞識別的研究現(xiàn)狀[C].第四屆全國人機語音通訊學(xué)術(shù)會議,北京,1996

          [3] 高升,徐波,黃泰翼.基于決策樹的漢語三音子模型[J].聲學(xué)學(xué)報,2000,11(2):271-276

          篇7

          中圖分類號:TP3 文獻標(biāo)識碼:A 文章編號:1674-098X(2014)03(b)-0071-01

          隨著有關(guān)于嵌入式系統(tǒng)的軟件和硬件技術(shù)的進步,語音識別系統(tǒng)得到了全面的應(yīng)用[1]。由于嵌入式系統(tǒng)受到各種軟硬件的約束,該系統(tǒng)通常運行的是特定的任務(wù)[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對于語音識別系統(tǒng)的效率和準(zhǔn)確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統(tǒng),其準(zhǔn)確率與HMM等復(fù)雜算法幾乎相同。

          1 DTW算法

          動態(tài)時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規(guī)整和距離測度結(jié)合起來的一種非線性規(guī)整技術(shù)。設(shè):

          (1)參考模板特征矢量序列為:c0,c1,…,cp;

          (2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。

          那么,DTW就是要計算函數(shù)D,從而使c和d之間的差別最小。

          2 DTW在線并行算法

          2.1 算法描述

          DTW在線并行算法對于并行性的小詞匯語音識別系統(tǒng)特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預(yù)先分配大小一定的內(nèi)存。最后一步是將每一個單元的運算結(jié)果輸入到?jīng)Q策模塊,得到最終結(jié)論。

          算法框圖如圖1所示,按照時間順序?qū)⒂嬎愠龅奈粗Z音特征矢量輸入到各個DTW流水線。然后由決策模塊依據(jù)各個流水線的計算結(jié)果以及其他信息得出結(jié)論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設(shè)置一個完成標(biāo)志位Pi(1≤i≤N),依據(jù)這些完成標(biāo)志,決策模塊對已經(jīng)完成計算的流水線結(jié)果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。

          2.2 算法分析

          令特征矢量的維度為l,未知模式的長度為k,參考模式的個數(shù)為n,參考模式的總長度為p,局部判決函數(shù)的水平跨度為w,流水線條數(shù)為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數(shù)據(jù)類型所占的字節(jié)數(shù),則OP-DTW算法所需的內(nèi)存為wnt/p Byte。當(dāng)b≥n時,算法所需時間為經(jīng)典DTW的1/n;當(dāng)b

          3 結(jié)語

          該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數(shù)據(jù)引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數(shù)據(jù)的匹配問題。

          參考文獻

          [1] 林常志.基于統(tǒng)計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http:///data/林常志語音識技術(shù)報告.net.

          篇8

          文章編號:1674-3520(2015)-09-00-03

          一、課題背景

          學(xué)校常會組織我們到貴陽市盲聾啞學(xué)校送愛心,與殘障孩子親密互動,今年也不例外。那些殘章的孩子來到這個世界,只能用他們僅存的方式去感知世界萬物,在他們的世界里只有一種顏色,那就是黑色。我不禁想,在學(xué)校還有老師的照拂,可他們總有一日要長大,要開啟自己的人生旅程。要是我能為他們做哪怕一點點事,就算只是為他們的家庭生活提供一些幫助也是好的。我想,如果能利用我在機器人社中學(xué)到的傳感器、電子電路、單片機等專業(yè)知識,對家庭電路進行智能化改造,讓家庭的電路“聰明”起來,使他們能夠聽得懂主人的指令而進行相應(yīng)的操作,那就可以對有殘障的人和對一些不良于行的病人或老人的家庭生活都能提供很大的便利。于是,有了我的這個設(shè)計――基于LD3320的語音識別系統(tǒng)在家庭電路中的模擬應(yīng)用。

          二、模型設(shè)計

          (一)模塊功能

          (二)模型組成

          (三)主要電子元件工作原理與功能說明

          1、LD3320語音識別芯片

          LD3320語音識別芯片采用的是ASR(Auto Speech Recognitio)技術(shù),是YS-LD語音識別模塊的核心。它是對大量的語音數(shù)據(jù)經(jīng)語言學(xué)家語音模型分析,建立數(shù)學(xué)模型,并經(jīng)過反復(fù)訓(xùn)練提取基元語音的細節(jié)特征,以及提取各基元間的特征差異,得到在統(tǒng)計概率最優(yōu)化意義上的各個基元語音特征,最后才由資深工程師將算法以及語音模型轉(zhuǎn)換成硬件芯片并應(yīng)用在嵌入式系統(tǒng)中。

          LD3320有兩種使用模式,即“觸發(fā)識別模式”和“循環(huán)識別模式”??梢酝ㄟ^編程,設(shè)置兩種不同的使用模式。

          觸發(fā)識別模式:系統(tǒng)的主控MCU在接收到外界一個觸發(fā)后,啟動LD3320芯片的一個定時識別過程,在這個定時過程中說出要識別的語音關(guān)鍵詞語。這個過程結(jié)束后,需要再次觸發(fā)才能再次啟動一個識別過程。

          循環(huán)識別模式:系統(tǒng)的主控MCU反復(fù)啟動識別過程。如果沒有人說話就沒有識別結(jié)果,則每次識別過程的定時到時后再啟動一個識別過程;如果有識別結(jié)果,則根據(jù)識別作相應(yīng)處理后再啟動一個識別過程。

          根據(jù)本案模型的設(shè)計特點,采用語音觸發(fā)識別模式。LD3320芯片最多支持50個識別條目,每個識別條目是標(biāo)準(zhǔn)普通話的漢語拼音(小寫),每2個字(漢語拼音)之間用1個空格間隔。例如表1,只需要把識別的關(guān)鍵詞語以漢語拼音字符串的形式傳送進芯片,該芯片已封裝了基于標(biāo)準(zhǔn)普通話的語音模型數(shù)據(jù)和語音識別算法,無需進行任何語音訓(xùn)練即可投入開發(fā)應(yīng)用。

          2、STM32單片機控制單元

          本案模擬系統(tǒng)主控單元采用意法半導(dǎo)體ARM-Cortex架構(gòu)的STM32F1系列超低功耗單片機作為控制核心。

          該單元完成幾大功能:

          向LD3320模塊提供時鐘振蕩信號,以驅(qū)動片上DSP(數(shù)字信號處理器 )工作;

          通過SPI(串行外設(shè)接口)串行通信方式向LD3320模塊寫入預(yù)定義的控制命令拼音串,并讀取語音模塊返回的識別結(jié)果編碼;

          根據(jù)識別結(jié)果驅(qū)動負載電路(LED單元(發(fā)光二極管)、繼電器單元)的動作。

          當(dāng)LD3320模塊完成一次識別過程后,通過中斷請求方式通知主控單元處理,主控單元獲知中斷請求后會暫時中止當(dāng)前的任務(wù)執(zhí)行,轉(zhuǎn)而跳轉(zhuǎn)到中斷服務(wù)例程(ISR Route),在該例程中通過SPI總線從LD3320模塊讀取識別編碼,根據(jù)識別編碼的不同執(zhí)行對應(yīng)控制功能。通過點亮、熄滅指令對應(yīng)發(fā)光二極管或驅(qū)動繼電器接通主回路得到運行結(jié)果。

          3、LED顯示單元

          本案模擬系統(tǒng)用六個共陽極發(fā)光二極管(LED)來模擬家庭中廚房、工作間、臥室、走廊、衛(wèi)生間、陽臺的燈泡開關(guān)狀況,工作時主控單片機則根據(jù)語音命令,采用輸出低電平方式進行驅(qū)動點亮。

          4、繼電器輸出單元

          繼電器輸出單元可接收主控單片機的高低電平控制信號以接通或斷開主回路。主回路根據(jù)實際需求可以用于大電壓,交、直流供電的負載驅(qū)動。本案模擬系統(tǒng)用繼電器單元實現(xiàn)家庭電扇的通斷控制。

          (四)系統(tǒng)軟件開發(fā)環(huán)境

          本案模擬系統(tǒng)的軟件開發(fā)只針對STM32F103主控單元進行,軟件代碼完成以下功能:

          LD3320底層驅(qū)動(對其內(nèi)部寄存器的讀寫、時序的控制);

          STM32F103硬件單元和用戶變量的初始化;

          用戶語音命令拼音串的寫入;

          中斷服務(wù)ISR(完成負載電路的驅(qū)動控制)。

          軟件開發(fā)基于ARM公司的Keil開發(fā)環(huán)境,完成從代碼編輯到編譯、調(diào)試、燒寫一系列過程。

          (五)設(shè)備成本

          三、設(shè)備實測

          (一)控制命令

          LD3320語音識別芯片中最多可以寫入50條語音控制指令,可以根據(jù)用戶需要定制個性化的語音控制功能。本案設(shè)備的設(shè)計初衷是為了探索LD3320語音識別芯片在家庭電路中的模擬應(yīng)用,故只寫入了比較基本的18條指令。

          (二)設(shè)備測試

          在寫入程序,完成硬件連線并加電復(fù)位后,系統(tǒng)即進入運行狀態(tài)。向系統(tǒng)說出控制命令(盡可能用普通話, 不過實測時對貴陽本地方言還是有較高識別率),比如說“廚房打開”、“走廊關(guān)閉”、“電扇啟動”、“運行流水燈”等命令后,系統(tǒng)會根據(jù)識別結(jié)果執(zhí)行對應(yīng)動作,點亮/熄滅LED或者通/斷電扇運行。

          為了更好的檢測語音識別效果,實驗中選擇多個不同音色的人在家庭(比較安靜)環(huán)境下分別進行測試,每個詞語測試50遍。部分非特定人的語音命令測試的正確識別數(shù)據(jù)比例見表4:由上表可知,在家庭(比較安靜)環(huán)境下,對于語音命令的平均識別率可達到90%以上。

          四、設(shè)備優(yōu)勢與應(yīng)用展望

          (一)設(shè)備優(yōu)勢

          1、本案設(shè)備成本低、語音辨識率高、響應(yīng)快速,可以直接安裝于家庭電路中實現(xiàn)語音智能控制。

          2、由于LD3320 可以動態(tài)編輯的識別關(guān)鍵詞語列表,因此其可以應(yīng)用的范圍大大超過了那些不可以改變識別列表的芯片。

          3、可以根據(jù)用戶的需求進行控制命令寫入,實現(xiàn)可定制、個性化的智能控制。

          (二)應(yīng)用展望

          1、應(yīng)對家庭生活突發(fā)狀況

          在本語音識別系統(tǒng)中只是初步嘗試了對用電器通、斷電控制,而在現(xiàn)在社會中有很多的空巢老人,他們獨自生活,如果在家中出現(xiàn)意外或突發(fā)疾病,隨時都有可能危及生命。如果在本案系統(tǒng)中可以添加“緊急呼叫”的語音控制,當(dāng)出現(xiàn)突發(fā)狀況時可以使用該功能觸發(fā)電話自動撥打物管、救護車、親屬等重要聯(lián)系人?;蛘咴摽刂婆c小區(qū)物管相連,每當(dāng)有人有緊急呼叫時,物管的終端緊急呼叫燈亮起,并觸發(fā)揚聲器發(fā)出警報聲,使物管人員迅速到場解決問題。

          2、實現(xiàn)家用電器的語音控制

          (1)電磁爐/微波爐/智能家電操作

          在現(xiàn)在的家電中,各種各樣的設(shè)置越來越繁復(fù)。用戶在使用過程中,還要不斷地對家電進行功能切換。在引入LD3320 芯片后,可以用語音直接控制這些家電。比如用語音來控制電磁爐把火力調(diào)整到“煎炸”或者是“慢燉”。

          (2)數(shù)碼像框

          數(shù)碼像框中存放了許多的照片和視頻,同時又具有多種播放的方式。一般是通過按鍵或者遙控器的方式來對其進行操作,但是這樣的操作并不方便。在引入了LD3320 提供的語音識別功能后,用戶可以最自然地用語音去點播想要顯示的照片,或者改變數(shù)碼像框的顯示方式。使得這樣的數(shù)碼產(chǎn)品更加具有人性化的操作界面。

          3、機頂盒/彩電遙控器

          隨著數(shù)字電視的普及,家庭中可以收看到的電視節(jié)目也越來越豐富。大家也就苦于在眾多的頻道中迅速選擇到自己想要看的頻道。在把LD3320 語音識別芯片集成進機頂盒/彩電遙控器后,用戶只需要對著遙控器說出想要看的電視頻道的名字,就可以快速地選擇。比如用戶可以說出“奧運體育”,就可以轉(zhuǎn)到體育頻道來觀看精彩的體育比賽了。

          4、智能玩具/對話玩具

          在電視購物中曾經(jīng)出現(xiàn)過可以人機對話的玩具,比如金福豬,金福狗等。這些玩具采用的語音識別只能支持固定的10 條左右的語音命令,比如“你好”,“我想聽歌”等等。采用LD3320 芯片,可以利用其動態(tài)編輯識別關(guān)鍵詞語列表的性能,讓玩具實現(xiàn)及其復(fù)雜的對話腳本。避免了玩具的嚴(yán)重同質(zhì)化。

          (三)公共服務(wù)設(shè)施的語音控制

          1、自動售貨機、地鐵自動售票機等銷售型服務(wù)設(shè)施

          在自動售貨機、地鐵自動售票機等銷售型服務(wù)設(shè)施中安裝語音操作模塊。人們可以對著售貨機說出要買的商品,比如“可口可樂”或者“面巾紙”投幣后商品就自動售出。在北京、上海等大都市中,外地旅客較多,對地鐵線路不熟悉導(dǎo)致買票時不知道票價也不知道如何購買。有了語音操作界面后,只需要對著售票機說出要去的地方或者想要到達的站點,根據(jù)屏幕提示放入紙幣,就可以方便地買到車票。

          2、公共照明系統(tǒng)、輔助設(shè)施的語音控制

          在公共場合幫助殘疾人士、行動不便的老人或小孩非接觸地去控制公共照明系統(tǒng)或輔助設(shè)施(地下通道輪椅臺等)的運行。

          3、樓宇電視的廣告點播

          目前分眾傳媒等公司的樓宇廣告設(shè)施,遍布幾乎所有的寫字樓,也在廣告投放上取得了良好的效果。但是目前用戶在接受廣告時,都是被動地去接受信息。對于其中感興趣的廣告,只能是等待下次再看到時進行仔細地了解,沒有辦法進行主動式地廣告查詢。

          引入LD3320 語音識別芯片后,用戶可以用語音去方便地查詢想要了解的廣告信息。比如操作樓宇廣告“重新播放”“上一條”來重新觀看一條廣告?;蛘摺捌嚒眮睃c播想要看的汽車廣告。

          這樣的語音操作,不需要增加額外的鍵盤輸入和觸摸屏輸入,又可以讓用戶與廣告充分互動,取得更佳的效果。

          五、結(jié)語

          使用LD3320 芯片可以在一定程度上完成這樣的語音控制系統(tǒng),給人們的生活帶來更便利的語音交互界面。作為一種新的人機交互界面,會逐步地走入人們的日常生活,在適合用語音控制的地方給人們提供更多的便利。

          參考文獻:

          篇9

          中圖分類號:TP391文獻標(biāo)識碼:A文章編號:1009-3044(2011)10-2339-02

          Design and Implementation of FPGA-based Voice Recognition Dialing System

          WANG Hong, HAN Fei, WANG Jian, MA Yan-ping, ZHONG Hui, LI He

          (School of Computer Science, South-Central University For Nationalities, Wuhan 430074, China)

          Abstract: This paper elaborates a much more efficent and more identifiable process of speech dialing system and crucial technology which based on Altera Cyclone Ⅲ 3C16 and Quartus Ⅱ, NiosⅡ9. 0IDE using improved speech processing and speech recognition algorithm.

          Key words: FPGA; speech recognition; MPCC; HMM

          1 系統(tǒng)的總體設(shè)計

          系統(tǒng)由語音采集模塊、語音識別模塊和撥號模塊三部分組成。語音信號采集模塊由麥克風(fēng)和音頻編解碼芯片TLV320AIC23B組成,它主要的功能是對外部語音進行采集并數(shù)字化;語音識別模塊由預(yù)處理、端點檢測、特征提取、訓(xùn)練和模式匹配等算法模塊組成;匹配成功后,由撥號模塊找出對應(yīng)的電話號碼,經(jīng)DTMF發(fā)生器輸出到電話線路上,實現(xiàn)語音控制自動撥號功能。系統(tǒng)的算法流程如圖1所示。

          2 語音采集模塊

          系統(tǒng)采用音頻編解碼芯片TLV320AIC23B對語音信號進行采集,使用該芯片時只需配置相應(yīng)端口,芯片自動將外界語音信號轉(zhuǎn)變成數(shù)字信號輸出。

          3 語音識別模塊

          語音識別模塊不僅要進行訓(xùn)練和模式匹配,還要對采集到的語音信號進行諸如加窗、預(yù)加重、除噪處理,最后提取特征參數(shù)供匹配識別操作。該模塊(如圖2所示)所采用的語音識別算法全部用HDL描述,采用FPGA實現(xiàn)。

          3.1 預(yù)處理

          預(yù)處理包括預(yù)加重、分幀和加窗,它們的目的是去除噪聲,加強有用信息,對語音輸入測量儀器或其他因素造成的退化現(xiàn)象進行復(fù)原。

          3.1.1 預(yù)加重

          預(yù)加重的目的是提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析。

          3.1.2 分幀加窗算法

          語音信號是一種典型的非平穩(wěn)信號,特性隨時間變化,但在很短的時間(大概15ms)內(nèi)是平穩(wěn)的,其特性保持不變,因此,可以采用分幀處理,用幀來描述語音信號的特征[1]。分幀算法用DSPBuilder描述,再轉(zhuǎn)換成對應(yīng)的HDL[2]。其DSP Builder的實現(xiàn)如圖3所示。

          加窗的目的是使主瓣更尖銳,旁瓣更低。本系統(tǒng)選用漢明窗,公式如(1):

          (1)

          3.2 端點檢測

          系統(tǒng)用HDL描述端點檢測,并且采用基于能量狀態(tài)變遷的端點檢測方法,將整個端點檢測過程分為6個狀態(tài),其狀態(tài)變遷取決于轉(zhuǎn)換條件。能量狀態(tài)變遷圖如圖4所示。

          3.3 特征提取

          經(jīng)過端點檢測后的語音幀用MFCC進行特征提取,對于經(jīng)過預(yù)加重和加窗處理的語音信號,可以直接從FFT開始計算。我們采用Alter公司提供的FFT IP核。一般框架如圖5所示。

          3.4 HMM訓(xùn)練與匹配

          系統(tǒng)的HMM訓(xùn)練采用經(jīng)典的Baum-Welch算法,識別采用viterbi算法[4]。系統(tǒng)對原始的viterbi算法進行了改進,改進后的算法如下:

          1)初始化 δ[1][1]= ∏[j]+b[j][O(1)],1QjQ4

          2)遞歸 δ[t][j]=min[δ[t-1][i]+a[i][j]]+b[O(t)],2QtQT 1QjQ4

          φ[j]=argmin[δ[t-1][i]+a[i][j]]2QtQT 1Qi jQ4

          3)終止 p=δ[T][4]q[t]=4

          4)路徑回溯q[t]= φ[t+1][q[t+1]],t=T-1,T-2,…,1

          算法表明,下一狀態(tài)只停留在當(dāng)前狀態(tài)轉(zhuǎn)移到它概率最大的那個狀態(tài),直至最后一個狀態(tài)S4,如圖6。

          4 撥號模塊

          模式匹配成功后,找出與模板對應(yīng)的電話號碼,經(jīng)過DTMF發(fā)生器輸出到電話線路上實現(xiàn)語音控制自動撥號的功能。在撥號狀態(tài)下,語音識別模塊通過信號線和控制線將DTMF信號發(fā)送到電話機線路上,電話機讀取存放在相應(yīng)位置的電話號碼并發(fā)送出去。

          5 結(jié)束語

          本文討論了基于FPGA的語音識別撥號系統(tǒng)的設(shè)計和實現(xiàn),對非特定人、孤立詞等進行識別。系統(tǒng)實現(xiàn)的語音識別準(zhǔn)確率高、效率加強,可應(yīng)用于任何可編程邏輯器件中,為手機、座機及其它諸多應(yīng)用中的語音撥號功能的實現(xiàn)提供了參考設(shè)計方案。

          參考文獻:

          [1] 馬志欣,王宏,李鑫.語音識別技術(shù)綜述[J].昌吉學(xué)院學(xué)報,2006(3):93-97.

          篇10

          一、背景

          不斷的提升客戶服務(wù)品質(zhì),持續(xù)的改善客戶感知是企業(yè)在競爭中制勝的法寶。隨著移動互聯(lián)網(wǎng)的發(fā)展,引入新技術(shù)支撐客戶服務(wù)系統(tǒng)由傳統(tǒng)的被動、應(yīng)答式客戶服務(wù)向主動、開放、智能服務(wù)的轉(zhuǎn)變成為必然趨勢。

          二、傳統(tǒng)IVR客戶服務(wù)系統(tǒng)存在的問題

          1.IVR語音導(dǎo)航復(fù)雜冗長,用戶體驗差。傳統(tǒng)的IVR客戶服務(wù)系統(tǒng)中客戶需要面對復(fù)雜、冗長、繁瑣的IVR導(dǎo)航菜單,用戶需要逐層聽取菜單提示,根據(jù)引導(dǎo)一步步進行按鍵操作才能得到服務(wù),這容易給用戶造成較差的體驗,傳統(tǒng)的按鍵式IVR自動語音服務(wù)面臨越來越明顯的挑戰(zhàn)。同時,由于用戶不能獲取便捷的自助服務(wù),大量服務(wù)涌入人工座席,寶貴的人工座席資源大量投入于提供簡單、重復(fù)、低價值的勞動中,使得呼叫中心的整體工作效率難以提升,運營成本居高不下,客戶滿意度也受到了影響。

          2.傳統(tǒng)IVR依靠主叫及DTMF信號實現(xiàn)客戶識別及交互,使得用戶與系統(tǒng)的交互受到很大的限制不利于“主動、智能”服務(wù)。

          三、什么是語音識別技術(shù)

          語音識別技術(shù),也稱為自動語音識別,就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入。與聲紋識別技術(shù)(Speaker recognition)及說話人確認(rèn)不同,聲紋識別技術(shù)嘗試識別或確認(rèn)發(fā)出語音的說話人,而語音識別技術(shù)嘗試識別其中所包含的詞匯內(nèi)容。

          語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。

          四、語音識別技術(shù)在智能客戶服務(wù)系統(tǒng)中的應(yīng)用

          語音識別技術(shù)在電話信道上的應(yīng)用已成為最重要的應(yīng)用之一,因此在新一代客戶服務(wù)系統(tǒng)中引入了語音識別技術(shù)作為用戶的輸入手段,客戶可以直接用語音與系統(tǒng)進行交互,這樣大大提高了工作效率,提升用戶感知。

          1.基于語音識別的IVR菜單扁平化智能應(yīng)用。引入語音識別技術(shù),創(chuàng)建智能IVR導(dǎo)航,使系統(tǒng)成為能聽懂自然語言的互動式語音應(yīng)答系統(tǒng),將傳統(tǒng)的IVR樹形的按鍵操作,轉(zhuǎn)換為扁平化的系統(tǒng)對話,使客戶能直達原子業(yè)務(wù)節(jié)點接受服務(wù),以縮短了通話時間,降低IVR業(yè)務(wù)節(jié)點放棄率,提升用戶自助服務(wù)效果,提升客戶體驗,分流客戶服務(wù),減輕人工服務(wù)壓力,提升人工服務(wù)價值。

          2.與聲紋識別技術(shù)結(jié)合對客戶進行差異化服務(wù)??蛻舴?wù)資源是寶貴的,將有限的客戶服務(wù)能力高效的用在提升客戶的感知上,需對客戶進行差異化服務(wù)。準(zhǔn)確的識別客戶等級及客戶服務(wù)內(nèi)容的緊急程度是實現(xiàn)差異化服務(wù)的基礎(chǔ),語音識別技術(shù)結(jié)合聲紋識別技術(shù),能突破目前傳統(tǒng)IVR客戶服務(wù)系統(tǒng)識別僅能根據(jù)客戶主叫號碼及DTMF信號的限制,從服務(wù)內(nèi)容,說話人識別的角度判定客戶服務(wù)的等級,有效攔截的騷擾用戶,提高客戶服務(wù)資源的利用率。

          3.基于語音識別的人工座席智能應(yīng)用。在人工服務(wù)中,實現(xiàn)客戶語音的“可視化”,完成客戶需解決問題的詞條及關(guān)鍵字的識別,輔助座席人員快速的進行相關(guān)知識庫知識節(jié)點的搜索匹配,提高客戶座席人員的工作效率和服務(wù)能力。

          4.基于語音識別的質(zhì)檢評估應(yīng)用??蛻舴?wù)人員的質(zhì)檢、考核評估,通常是基于語音抽檢方式進行,為了提高對服務(wù)質(zhì)量的管控,通常需要進行大量的語音抽檢,這需要占用了大量的人力資源。通過語音識別技術(shù),對服務(wù)語音進行關(guān)鍵字及語氣的識別匹配,實現(xiàn)系統(tǒng)自動質(zhì)檢檢查,可有效提高質(zhì)檢檢查的覆蓋率,對關(guān)鍵服務(wù)質(zhì)量問題進行有效過濾,減輕后臺質(zhì)檢人員的工作量,提高質(zhì)檢工作的效率,提升服務(wù)質(zhì)量的管控。

          篇11

          語音識別技術(shù)目前在嵌入式系統(tǒng)中的應(yīng)用主要為語音命令控制,它使得原本需要手工操作的工作用語音就可以方便地完成。語音命令控制可廣泛用于家電語音遙控、玩具、智能儀器及移動電話等便攜設(shè)備中。使用語音作為人機交互的途徑對于使用者來說是最自然的一種方式,同時設(shè)備的小型化也要求省略鍵盤以節(jié)省體積。

          嵌入式設(shè)備通常針對特定應(yīng)用而設(shè)計,只需要對幾十個詞的命令進行識別,屬于小詞匯量語音識別系統(tǒng)。因此在語音識別技術(shù)的要求不在于大詞匯量和連續(xù)語音識別,而在于識別的準(zhǔn)確性與穩(wěn)健性。

          對于嵌入式系統(tǒng)而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點DSP,有時甚至只能考慮使用MPU,這意味著算法的復(fù)雜度受到限制;其次,嵌入式系統(tǒng)對體積有嚴(yán)格的限制,這就需要一個高度集成的硬件平臺,因此,SoC(System on Chip)開始在語音識別領(lǐng)域嶄露頭角。SoC結(jié)構(gòu)的嵌入式系統(tǒng)大大減少了芯片數(shù)量,能夠提供高集成度和相對低成本的解決方案,同時也使得系統(tǒng)的可靠性大為提高。

          語音識別片上系統(tǒng)是系統(tǒng)級的集成芯片。它不只是把功能復(fù)雜的若干個數(shù)字邏輯電路放入同一個芯片,做成一個完整的單片數(shù)字系統(tǒng),而且在芯片中還應(yīng)包括其它類型的電子功能器件,如模擬器件(如ADC/DAC)和存儲器。

          筆者使用SoC芯片實現(xiàn)了一個穩(wěn)定、可靠、高性能的嵌入式語音識別系統(tǒng)。包括一套全定點的DHMM和CHMM嵌入式語音識別算法和硬件系統(tǒng)。

          1 硬件平臺

          本識別系統(tǒng)是在與Infineon公司合作開發(fā)的芯片UniSpeech上實現(xiàn)的。UniSpeech芯片是為語音信號處理開發(fā)的專用芯片,采用0.18μm工藝生產(chǎn)。它將雙核(DSP+MCU)、存儲器、模擬處理單元(ADC與DAC)集成在一個芯片中,構(gòu)成了一種語音處理SoC芯片。這種芯片的設(shè)計思想主要是為語音識別和語音壓縮編碼領(lǐng)域提供一個低成本、高可靠性的硬件平臺。

          該芯片為語音識別算法提供了相應(yīng)的存儲量和運算能力。包括一個內(nèi)存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點DSP,運算速度可達到約100MIPS.MCU核是8位增強型8051,每兩個時鐘周期為一個指令周期,其時鐘頻率可達到50MHz。

          UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數(shù)據(jù)在芯片內(nèi)部均按16bit格式保存和處理。對于語音識別領(lǐng)域,這樣精度的ADC/DAC已經(jīng)可以滿足應(yīng)用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

          2 嵌入式語音識別系統(tǒng)比較

          以下就目前基于整詞模型的語音識別的主要技術(shù)作一比較。

          (1)基于DTW(Dynamic Time Warping)和模擬匹配技術(shù)的語音識別系統(tǒng)。目前,許多移動電話可以提供簡單的語音識別功能,幾乎都是甚至DTM和模板匹配技術(shù)。

          DTW和模板匹配技術(shù)直接利用提取的語音特征作為模板,能較好地實現(xiàn)孤立詞識別。由于DTW模版匹配的運算量不大,并且限于小詞表,一般的應(yīng)用領(lǐng)域孤立數(shù)碼、簡單命令集、地名或人名集的語音識別。為減少運算量大多數(shù)使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運算。

          DTW和模板匹配技術(shù)的缺點是只對特定人語音識別有較好的識別性能,并且在使用前需要對所有詞條進行訓(xùn)練。這一應(yīng)用從20世紀(jì)90年代就進入成熟期。目前的努力方向是進一步降低成本、提高穩(wěn)健性(采用雙模板)和抗噪性能。

          (2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識別算法。這是Rabiner等人在20世紀(jì)80年代引入語音識別領(lǐng)域的一種語音識別算法。該算法通過對大量語音數(shù)據(jù)進行數(shù)據(jù)統(tǒng)計,建立識別條的統(tǒng)計模型,然后從待識別語音中提取特征,與這些模型匹配,通過比較匹配分?jǐn)?shù)以獲得識別結(jié)果。通過大量的語音,就能夠獲得一個穩(wěn)健的統(tǒng)計模型,能夠適應(yīng)實際語音中的各種突況。因此,HMM算法具有良好的識別性能和抗噪性能。

          基于HMM技術(shù)的識別系統(tǒng)可用于非特定人,不需要用戶事先訓(xùn)練。它的缺點在于統(tǒng)計模型的建立需要依賴一個較大的語音庫。這在實際工作中占有很大的工作量。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運算量相對較大,通常需要具有一定容量SRAM的DSP才能完成。

          在嵌入式語音識別系統(tǒng)中,由于成本和算法復(fù)雜度的限制,HMM算法特別CHMM(Continuous density HMM)算法尚未得到廣泛的應(yīng)用。

          (3)人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)。ANN在語音識別領(lǐng)域的應(yīng)用是在20世紀(jì)80年代中后期發(fā)展起來的。其思想是用大量簡單的處理單元并行連接構(gòu)成一種信息處理系統(tǒng)。這種系統(tǒng)可以進行自我更新,且有高度的并行處理及容錯能力,因而在認(rèn)知任務(wù)中非常吸引人。但是ANN相對于模式匹配而言,在反映語音的動態(tài)特性上存在重大缺陷。單獨使用ANN的系統(tǒng)識別性能不高,所以目前ANN通常在多階段識別中與HMM算法配合使用。

          3 基于HMM的語音識別系統(tǒng)

          下面詳細介紹基于HMM的語音識別系統(tǒng)。首先在UniSpeech芯片上實現(xiàn)了基于DHMM的識別系統(tǒng),然后又在同一平臺上實現(xiàn)了基于CHMM的識別系統(tǒng)。

          3.1 前端處理

          語音的前端處理主要包括對語音的采樣、A/D變換、分幀、特片提取和端點檢測。

          模擬語音信號的數(shù)字化由A/D變換器實現(xiàn)。ADC集成在片內(nèi),它的采樣頻率固定為8kHz。

          特征提取基于語音幀,即將語音信號分為有重疊的若干幀,對每一幀提取一次語音特片。由于語音特征的短時平穩(wěn)性,幀長一般選取20ms左右。在分幀時,前一幀和后一幀的一部分是重疊的,用來體現(xiàn)相鄰兩幀數(shù)據(jù)之間的相關(guān)性,通常幀移為幀長的1/2。對于本片上系統(tǒng),為了方便做FFT,采用的幀長為256點(32ms),幀移為128點(16ms)。

          特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。在DHMM系統(tǒng)中,使用24維特征矢量,包括12維MFCC(Mel Frequency Cepstrum Coefficient)和12維一階差分MFCC;在CHMM系統(tǒng)中,在DHMM系統(tǒng)的基礎(chǔ)上增加了歸一化能量、一階差分能量和二階差分能量3維特征,構(gòu)成27維特征矢量。對MFCC和能量分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性。

          3.2 聲學(xué)模型

          在HMM模型中,首先定義了一系列有限的狀態(tài)S1…SN,系統(tǒng)在每一個離散時刻n只能處在這些狀態(tài)當(dāng)中的某一個Xn。在時間起點n=0時刻,系統(tǒng)依初始概率矢量π處在某一個狀態(tài)中,即:

          πi=P{X0=Si},i=1..N

          以后的每一個時刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時刻系統(tǒng)的狀態(tài)有關(guān),并且依轉(zhuǎn)移概率矩陣A跳轉(zhuǎn),即:

          系統(tǒng)在任何時刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內(nèi)部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個Rq空間隨機觀察矢量On。On的分布B稱為輸出概率矩陣,只取決于Xn所處狀態(tài):

          Pxn=Si{On}=P{On|Si}

          因為該系統(tǒng)的狀態(tài)不為外界所見,因此稱之為“穩(wěn)含馬爾科夫模型”,簡稱HMM。

          在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時,其概率密度函數(shù)一般使用混合高斯分布擬合。

          其中,M為使用的混合高斯分布的階數(shù),Cm為各階高期分布的加權(quán)系數(shù)。此時的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡稱CHMM模型。在本識別系統(tǒng)中,采用整詞模型,每個詞條7個狀態(tài)同,包括首尾各一個靜音狀態(tài);每個狀態(tài)使用7階混合高斯分布擬合。CHMM識別流程如圖1所示。

          由于CHMM模型的復(fù)雜性,也可以假定On的分布是離散的。通常采用分裂式K-Mean算法得到碼本,然后對提取的特征矢量根據(jù)碼本做一次矢量量化VQ(Vector Quantization)。這樣特征矢量的概率分布上就簡化為一個離散的概率分布矩陣,此時的HMM模型稱為離散HMM模型(Discrete density HMM),簡稱DHMM模型。本DHMM識別系統(tǒng)使用的碼本大小為128。DHMM識別流程如圖2所示。

          DHMM雖然增加了矢量量化這一步驟,但是由于簡化了模型的復(fù)雜度,從而減少了占用計算量最大的匹配計算。當(dāng)然,這是以犧牲一定的識別性能為代價。

          筆者先后自己的硬件平臺上完成了基于DHMM和CHMM的識別系統(tǒng)。通過比較發(fā)現(xiàn),對于嵌入式平臺而言,實現(xiàn)CHMM識別系統(tǒng)的關(guān)鍵在于芯片有足夠運算太多的增加。因為詞條模型存儲在ROM中,在匹配計算時是按條讀取的。

          3.3 識別性能

          筆者使用自己的識別算法分別對11詞的漢語數(shù)碼和一個59詞的命令詞集作了實際識別測試,識別率非常令人滿意,如表1所示。

          表1 漢語數(shù)碼識別率

          DHMMCHMM特征矢量維數(shù)2427識別率93.40%98.28%識別速度(11詞)10ms50ms模型大?。?個詞條)1.5KB<5.5KB碼本6KB無對于59詞命令詞集的識別,還增加了靜音模型。由于基線的識別率已經(jīng)很高,所以靜音模型的加入對于識別率的進一步提高作用不大,如表2所示。但靜音模型的加入可以降低對端點判斷的依賴。這在實際使用中對系統(tǒng)的穩(wěn)健性有很大的提高。

          表2 59詞命令詞集識別率