中文字幕一二三区,亚洲国产片在线观看,国产网站午夜性色,亚洲国产综合精品2022

<menuitem id="ct2o2"><var id="ct2o2"></var></menuitem>
      1. <noscript id="ct2o2"><progress id="ct2o2"><i id="ct2o2"></i></progress></noscript>
        1. 期刊 科普 SCI期刊 投稿技巧 學術 出書

          首頁 > 優(yōu)秀范文 > 語音識別技術

          語音識別技術樣例十一篇

          時間:2023-03-25 11:26:28

          序論:速發(fā)表網結合其深厚的文秘經驗,特別為您篩選了11篇語音識別技術范文。如果您需要更多原創(chuàng)資料,歡迎隨時與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!

          語音識別技術

          篇1

          該文主要致力于解決通話中的語音識別技術,長期可推廣至QQ語音聊天等即時聊天軟件中,相較于目前大多數(shù)語音識別軟件需要手動打開更為主動,讓用戶感覺不到軟件的存在,將該技術深度整合到系統(tǒng)或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,大大提高了效率,并對聽力有障礙的人士有更為重要的意義。

          一、語音識別基本原理

          語音識別系統(tǒng)本質上是一種模式識別系統(tǒng),包括特征提取、模式匹配、參考模式庫等三個基本單元,未知語音經過話筒變換成電信號后加在識別系統(tǒng)的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板,然后根據此模板的定義,通過查表就可以給出計算機的識別結果。 [1]

          二、通話中語音識別技術

          2.1技術原理:

          1、基本架構:Smartalk通話系統(tǒng)基于“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務,并加以對手機GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對之進行處理和交換。Smartalk架構分為4個部分:客戶端、語音視頻服務、語音識別服務、云數(shù)據處理分析。利用“云之訊”開放平臺提供的語音視頻通話服務和“科大訊飛”開放平臺提供的語音識別服務可將用戶在通話中涉及的地點、人名、電話號碼等關鍵詞提取出來并加以分析對行程和下一步操作提供幫助。

          2、基本平臺:本系統(tǒng)基于APIcloud開發(fā),兼容云端和第三方SDK,可跨平臺(Android、IOS、Windows等)使用,采用標準的c++語言實現(xiàn)。

          2.2功能實現(xiàn):

          1、基于“云之訊”開放平臺的通話系統(tǒng):云之訊融合通訊開放平臺為企業(yè)及個人開發(fā)者提供各種通訊服務,包括在線語音服務、短信服務、視頻服務、會議服務等,開發(fā)者通過嵌入云通訊API在應用中輕松實現(xiàn)各種通訊功能。

          2、基于“科大訊飛”開放平臺的語音識別系統(tǒng):。訊飛開放平臺使用戶可通過互聯(lián)網、移動互聯(lián)網,使用任何設備方便的介入訊飛開放平臺提供的“聽、說、讀、寫”等全方位的人工智能服務。目前開放平臺向開發(fā)者提供語音合成、語音識別、語音喚醒、語義理解、移動應用分析等多項服務。

          3、語音識別與云端大數(shù)據結合分析:。利用基于“云之訊”通話系統(tǒng)和“科大訊飛”語音識別系統(tǒng)實現(xiàn)了實時的語音識別,加以云端大數(shù)據的結合,和實時的分析用戶當前的需求和問題,及時的跟用戶產生交流反饋,并根據用戶長期的使用時間分析智能提前推送相關信息。

          2.3未來展望:

          基于大數(shù)據和互聯(lián)網+技術的日益發(fā)展與完善,并隨著通信傳輸速度的逐漸提高,可在實時的條件下分析與推送更多豐富的內容,加以與即時聊天軟件的結合,將該技術深度整合到系統(tǒng)或QQ服務中在通話結束后針對通話中涉及的電話號碼、地點、時間等關鍵信息進行信息的推送,并對聽力有障礙的人士有更為重要的意義,未來的市場前景廣闊。

          三、語音識別技術應用

          3.1 語音指令控制在汽車上的應用:

          語音控制人員只需要用嘴說出命令控制字,就可以實現(xiàn)對系統(tǒng)的控制。在汽車上,可用于汽車導航、控制車載設備。如車燈、音響、天窗、座椅、雨刮器等。

          3.2語音識別技術在醫(yī)療系統(tǒng)中的應用:

          醫(yī)療語音識別技術,已有廠商開發(fā)了基于云平臺的語音識別系統(tǒng),可直接內嵌到醫(yī)院電子病歷系統(tǒng)中,讓醫(yī)生通過語音輸入病人信息,填寫醫(yī)療記錄,下達醫(yī)囑信息。

          四、相關市場調研

          1、國內外市場分析:2015年全球智能語音產業(yè)規(guī)模達到61.2億美元,較2014年增長34.2%。其中,中國智能語音產業(yè)規(guī)模達到40.3億元,較2014年增長增長41.0%,遠高于全球語音產業(yè)增長速度預計到2016年,中國語音產業(yè)規(guī)模預計達到59億元。[2]

          2、相關應用發(fā)展:拉斯維加斯消費電子展(CES)上展示的MindMeld。在通話中,如果參與者點擊應用的一個按鈕,那么MindMeld將利用Nuance的語音識別技術,分析此前15至30秒對話。隨后,MindMeld將確定對話中的關鍵詞,以及其他多個信息來源,查找具有相關性的信息,并在屏幕上向用戶提供圖片和鏈接地址。[3]

          參 考 文 獻

          篇2

          語音識別技術成為21世紀“數(shù)字時代”的重要開發(fā)領域,在計算機的多媒體技術應用和工業(yè)自動化控制應用等方面,成果令人屬目。語音識別技術是指用電子裝置來識別某些人的某些特征語音,語音識別的手段一般分為二大類,一類利用在計算機上開發(fā)語音識別系統(tǒng),通過編程軟件達到對語音的識別,另一類采用專門的語音識別芯片來進行簡單的語音識別。利用專門的語音識別芯片應用在地鐵車輛上,具有結構簡單、使用方便,并且語音識別器有較高的可靠性、穩(wěn)定性的特點,是簡單語音識別在自動控制應用上的一種優(yōu)先方案。

          目前上海地鐵

          一、

          二、

          三、

          五、

          六、八號線在車輛信息顯示系統(tǒng)的設計上缺少實用性和操作性,對乘客來講缺少在實時報站時的人性化。如:地鐵車廂內的乘客信息顯示系統(tǒng)和車廂外側的列車信息顯示系統(tǒng)。如果在每個車門的上方安裝車站站名動態(tài)顯示地圖,實時顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側顯示列車的終點站,良好的工業(yè)設計不僅能給廣大的乘客帶來非常大的幫助,而且能夠提升上海地鐵服務的形象。由于在設計以上地鐵列車時,受科技發(fā)展的限制?,F(xiàn)在上海地鐵4號線在車輛信息顯示系統(tǒng)的設計上滿足了廣大的乘客的需求,

          增加了車站站名動態(tài)顯示地圖。

          如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內的乘客信息顯示系統(tǒng)和車廂外側的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實用性和性價比,同時安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應用,設計方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復雜,例如:對于應用在某條線路上的聲音識別系統(tǒng),不僅要修改原語音文件,而且聲音識別器不容易操縱,

          對使用者來講仍然存在比較多的問題。對于應用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機帶來了任務,每站需要手動操作二次,同時顯示的相關內容沒有實時性,總之乘客信息顯示系統(tǒng)比較落后。

          設計一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。

          2.設計

          地鐵車輛乘客信息顯示系統(tǒng)的設計,采用CMOS語音識別大規(guī)模集成電路,識別響應時間小于300ms。HM2007芯片采用單片結構,如圖3。將語音識別需要的全部電路:CPU、A/D、ROM、語音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內,這樣電路就非常少,外接64K非易失性SRAM,最多能識別40個車站站名語音(字長0.9秒),或(字長1.92秒)但識別僅20個車站站名語音。按正常人的講話速度,0.9秒一般每秒吐字1到3個為宜。

          針對目前上海地鐵列車在車廂內外無LED動態(tài)站名顯示而設計,通過將列車車廂廣播的模擬信號轉換成數(shù)字信號,自動控制LED發(fā)光二極管,在列車在車廂內使得廣播的內容(每個車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門上方,并且顯示面板以地鐵運營線路為背景,達到列車進站和出站時能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點站方向,從而方便乘客的上下車,提高了地鐵服務水平。在國外的地鐵列車上應用已相當普遍。

          語音識別顯示器①的輸入端與車載廣播功放器相連接,實現(xiàn)廣播模擬信號發(fā)出的語音進行車站名的自動識別。不需要編程技術和修改文件等方法,全部采用硬件方法設計。整個系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語言識別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。

          (1)輸入控制部分:

          通過麥克風或(結合器)連接,如圖4所示,要求模擬語音輸入點的電壓必須控制在大約20mv左右,以確保后期語音識別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號轉變成數(shù)字方波信號,對語音輸入進行開關量的控制,確保在T<0.9秒內的正確輸入語音字長。

          (2)語音識別部分:

          利用語音識別芯片HM2007和外接6264SRAM存儲器組成為主要部分,(HM2007中ROM已經固化了語音語法技術)對語音的存儲及語音語法算法進行控制。HM2007的詳細內容見產品說明書。

          (3)噪音濾波部分:

          濾波功能是自動識別(阻擋)我們在設計階段設計好的各個工況的語音情況,例如:司機的講話及車輛雜音等(在麥克風的工況下),以確保輸入語音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進行濾波電路。如圖5。

          (4)執(zhí)行顯示部分:

          將車廂廣播喇叭的模擬信息通過語音識別器轉變成數(shù)字信息,最終經過譯碼電路、4/16多路數(shù)據選擇器及RS485接口,去控制車廂內車門上十個LED顯示面板,如圖6。

          (5)錄音功能部分:

          在進行廣播內容更改時,本項目最大的特點是:不需要任何手段的手工軟件編程的修改,而是通過遠程音頻電路控制技術進行按動相關按鈕,選擇地址然后自動錄入內容,如圖6。

          3.結論

          語音識別器及LED顯示面板的設計,能應用到以前沒有LED顯示面功能的地鐵車輛上,與其他所設計的方式相比較,語音識別控制簡單、可靠性好、安裝方便、相對投資最小和不改動車廂內任何電器為特點,僅提供110VDC電源和音頻輸入接口。

          本項目的開發(fā)具有一定社會效益,得到國內外乘客和殘疾人員的歡迎,提高了地鐵服務質量。

          參考文獻:

          1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

          2.555集成電路實用大全上??萍计占俺霭嫔?/p>

          3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎”

          篇3

          一、引言

          隨著我國外語教學的不斷發(fā)展,各種外語口語教學工具與學習方法也應運而生。然而外語口語的學習對于學習者而言既是重點也是難點,當前的計算機輔助教學只是側重于外語單詞記憶教學與語法教學,并且因為外語口語學習者的學習水平不一,在學習過程中很難將自己的不正確發(fā)音找出來。于是,在外語口語學習中就可以應用語言識別技術,該系統(tǒng)具備外語口語發(fā)音的糾正功能,學習者通過該系統(tǒng)進行外語口語的學習與練習,就能糾正自己錯誤的發(fā)音,避免因為多次錯誤發(fā)音而形成不良習慣。因此,對外語口語訓練中語音識別技術進行研究,能夠提高外語口語學習者的學習效率。

          二、外語口語學習中語音識別技術應用的重要意義

          隨著中國改革開放程度的深化以及全球經濟一體化的飛速發(fā)展,世界各國的交往越來越頻繁,學習并掌握一門外語,對于人們的工作與生活而言,已經成為必不可少的工具。在學習外語的需求不斷增長的情況下,出現(xiàn)了各種外語教學方法、教學工具以及語言學校等,然而國人在外語學習過程中,外語的口語教學與學習一直是較難突破的難題,其主要原因有以下幾個方面:

          (一)各種外語發(fā)音的特點與漢語發(fā)音的特點存在較大差異,因而可能導致國人在學習外語時由于受到母語的深厚影響而犯下許多自己根本無法察覺或者是很難察覺的發(fā)音錯誤。

          (二)目前在國內合格的外語口語教師還是很少,自己發(fā)音標準又能夠準確地指導別人進行口語學習的外語教師,即便是在一些大中城市的中小學中也相當缺乏。同時,一般的媒體教學也不能夠針對學生的特定情況,有效地讓學生與教師互動進行口語訓練,只能夠單方面地進行傳授,所以起到的作用也不是很有效。

          外語口語訓練中語音識別技術的應用,讓軟件具備了矯正錯誤發(fā)音的功能,能夠為學習者及時改正錯誤的發(fā)音提供幫助,從而有效避免錯誤反復而變成一種惡性習慣,并使外語學習者口語學習的效率與效果得到一定程度的提高,獲得更大的市場價值與社會效益。

          三、外語口語訓練中語音識別的關鍵技術

          (一)語音識別

          在語音識別技術中,語音識別是第一步也是最重要的一步,接下來幾個步驟的精確度都會受其影響,它能夠在語法與音素模型的基礎上,將輸入的語音信號翻譯成單詞串。同時,許多基于計算機的語言訓練活動都可以應用這一部分,比如基于語音的選擇題或者是與計算機的對話訓練等等。

          (二)語音評分

          在基于語音識別技術的外語口語學習系統(tǒng)中,語音評分技術是最基本也是最核心的組成部分。語音評分技術能夠評價并反饋學習者的口語發(fā)音情況,可以讓學習者通過反饋的結果對自己的學習結果進行檢查。通常情況下,按照語音評分技術,目前的外語口語學習系統(tǒng)主要可以分為兩種:一種是基于語音特征比較的評分方法,它通過將學習者的發(fā)音與標準語音進行對比參考,從一個較為主觀的角度對一段語音質量進行評價,通常采用動態(tài)時間規(guī)整技術實現(xiàn),因為其具備運算量小的特點,因而在嵌入式系統(tǒng)與手持設備中運用較多;另一種是基于聲學模型的評分方法,它能夠通過語音識別技術將以計算發(fā)音質量所需的小單元切割出來,然后再通過事先訓練好的聲學模型與其進行對比,最后根據評分機制對其評分,因為該方式較為客觀,目前主流的外語口語學習系統(tǒng)中均采用這種技術,其主要是基于隱馬爾可夫模型(HMM)技術實現(xiàn)。

          如圖1,基于HMM的語音評分流程圖所示,其語音評分的關鍵技術分為以下幾步:

          圖1 基于HMM的語音評分流程圖

          1.首先,對學習者所輸入的語音進行特征提取;

          2.其次,將已經訓練好的HMM作為模板,再采用Viterbi算法將語言以計算發(fā)音質量所需的小單元進行分割,并強制對齊;

          3.最后,采用不同的評分機制對不同的需要進行評分,將評分結果得出。同時,在某些情況下,要注意將說話驗證在語音評分開始時加入,從而將學習者發(fā)音內容與標準發(fā)音完全不同的部分擋下,保證整個口語學習系統(tǒng)的可信度更高。此外,由于同樣的聲音可能代表的意義不同,因而在這些更加復雜的應用中,需要將各種詞發(fā)生概率的大小、上下文的關系進行綜合考慮,并將語言模型加入,從而為聲學模型的判斷提供更好的輔助。

          (三)發(fā)音錯誤檢測與錯誤糾正

          對于外語學習者而言,雖然知道系統(tǒng)能夠評價其發(fā)音質量,但是單憑非母語學習者自己對其自身錯誤的所在還是不能清楚地了解到,對這個錯誤也不知道如何進行糾正。因而,外語口語學習者需要通過系統(tǒng)對發(fā)音的錯誤進行檢測與定位,并將相應的錯誤糾正建議提供給學習者進行有效糾正。

          1.發(fā)音錯誤的檢測與定位

          在外語口語訓練中,導致錯誤發(fā)音的因素有很多。例如學習者不會發(fā)某種聲音,或者是受到其他語言拼讀方法的影響以及不能正確體會到兩種聲音的差別等等。語音識別器也是發(fā)音錯誤檢測中使用的一種方法,比如用母語訓練的語音識別器,但是因為在沒有使用自適應技術的情況下,學習者發(fā)音的識別錯誤也有可能會當成是發(fā)音錯誤,因而這種方法就很難準確地檢測到非母語學習者的發(fā)音是否正確。所以,目前對錯誤發(fā)音的檢測比較合理的一種做法是:首先以發(fā)音專家的知識為依據,嚴格將容易出錯的發(fā)音進行合理的分類,然后以不同的錯誤類型為依據,將其相應的檢測算法設計出來,最后用各種錯誤檢測算法對學習者的發(fā)音分別進行檢測。

          2.發(fā)音錯誤的糾正

          系統(tǒng)將發(fā)音錯誤檢測出來后,同時就對學習者所犯的錯誤根據專家關于發(fā)音錯誤的知識給出相應的錯誤提示與錯誤糾正建議。其中,對于這些發(fā)音專家知識的構建而言,是通過事先收集大量的經驗數(shù)據而積累而成的,例如不同學習者的發(fā)音特點等,然后通過數(shù)據挖掘的聚類算法將不同學習者不同發(fā)音特征的聚類準確地計算出來,再由專家客觀地評判分類的發(fā)音,最后將各聚類的改進建議提出來。

          (四)回饋展示

          在基于語音識別技術的外語口語學習系統(tǒng)中,這一部分是整個系統(tǒng)對用戶的窗口,上述部分所產生的信息都可以通過分數(shù)條或者是數(shù)字的形式為外語學習者展示出來。同時只有通過這個模塊,外語學習者才能夠從基于語音識別技術的外語口語學習系統(tǒng)中獲益,所以,整個系統(tǒng)的可用度都通過這一模塊設計的好壞來決定。

          四、結語

          總而言之,隨著社會經濟與科學技術的快速發(fā)展,各種帶有語音識別技術的便攜式終端設備出現(xiàn)在人們的日常生活與學習中,為廣大外語愛好者與學習者提供了不受教師資源、地點以及時間等限制的智能外語學習系統(tǒng),有效地提高了外語學習者的學習效率與學習效果,相信在未來,也能夠為外語學習者們提供更快、更好的電子學習手段。

          【參考文獻】

          [1]盧永輝.語音識別技術在外語口語訓練中的應用[J].電腦知識與技術,2014(04):836-837,843.

          [2]吳艷艷.孤立詞語音識別的關鍵技術研究[D].青島:青島大學,2012.

          篇4

          中圖分類號:TP316.9

          文獻標識碼:A

          DOI:10.3969/j.issn.1003-6970.2015.07.021

          0 引言

          隨著計算機的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網絡技術實現(xiàn)家居設備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術也進一步的發(fā)展,但是語音在智能家居中的應用還是相對較少,一般還要依靠遙控、手機等中控設備。語言是信息交流的重要手段,語音識別可以用聲音來控制設備完成一些特定的命令,減少用戶如手機,遙控等中控設備的依賴,使生活更加方便。

          本文通過對語音識別技術與嵌入式控制技術的研究,用語音命令實現(xiàn)直接管控從而可以取代以往利用手機或者遙控方式來控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實現(xiàn)語音采集,并采用當今語音識別領域的主流技術一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實現(xiàn)對人語音命令的識別主要是進行模型訓練和匹配。實驗證明在多個語音樣本對系統(tǒng)的訓練識別下,系統(tǒng)在非特定人、孤立詞語識別上具有良好的效果。

          1 語音識別與智能家居

          1.1 語音識別技術

          語音識別技術本質上是一種模式匹配識別的過程,是機器通過識別和理解過程把語音信號轉變成相應的文本文件或命令的技術。根據模式匹配過程語音識別系統(tǒng)可以如下圖表示。語音識別系統(tǒng)可以分為:特定人和非特定人的識別、獨立詞和連續(xù)詞的識別等,無論哪種識別系統(tǒng)識別過程都主要包括了語音信號預處理、特征提取、訓練等。分別通過對信號的預處理分析和計算建立模板,當對語音進行識別時,需要將輸入的語音與系統(tǒng)中存放的語音進行比較從而得到識別結果。

          1.2 語音識別算法

          人的言語過程是一個雙重隨機過程。因為語音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據言語需要和語法知識狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實驗表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產生過程。隱馬爾可夫模型是對語音信號的時間序列結構建立統(tǒng)計模型,將之看作一個數(shù)學上的雙重隨機過程,采用HMM進行語音識別,實質上是一種概率運算,根據訓練集數(shù)據計算得出模型參數(shù)后,測試集數(shù)據只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結果。一階離散馬爾可夫模型可表示為:有N個狀態(tài),Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統(tǒng)只能處于唯一一個狀態(tài)qt,下一個時刻所處的狀態(tài)是隨機出現(xiàn)的,當前狀態(tài)qt只與前面相鄰的一個狀態(tài)qt-l有關, 與其他狀態(tài)無關,用表達式

          HMM語音識別的一般過程:

          1.前向后向算法計算

          已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產生觀測序列O的概率

          2.Baum-Welch算法求出最優(yōu)解 :

          (1)初始化

          (2)迭代計算

          (3)最后計算

          3.Viterbi算法解出最佳狀態(tài)轉移序列:

          已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。

          (1)初始化

          (2)迭代計算:

          4.根據最佳狀態(tài)序列對應的九給出候選音節(jié)或聲韻母

          5.通過語言模型形成詞和句子

          2 基于NL6621嵌入式硬件設計

          語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些設備,硬件體系結構如圖2所示。

          主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護設置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據通信是通過SPI總線方式進行的。它集成了麥克風輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進行IMA ADPCM編碼,能有效的接受和播放音頻信息。

          硬件電路實現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來確認是哪一個接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據接口(SDI)來接收NL6621的控制命令和數(shù)據,通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。

          3 基于NL6621嵌入式軟件設計

          軟件設計主要包括兩部分實現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術的語音識別算法編寫,基本的軟件架構如圖3所示。

          針對嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉化、程序編寫完成后需要用燒寫工具進行燒寫。系統(tǒng)啟動后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語音輸入設備MIC采集語音,并通過聲卡VS1003輸入語音。當系統(tǒng)監(jiān)聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發(fā)送給執(zhí)行設備,入耳不正確,給出相應

          篇5

          一、引言

          語音作為語言的聲學體現(xiàn),也是人類進行信息交流最自然、和諧的手段。與機械設各進行語音的溝通,讓機器可以明白人類在說什么,并理解這是人類長期的夢想。語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數(shù)據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

          二、語音信號分析與特征提取

          1.基于發(fā)音模型的語音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過程就是由肺部進行收縮,并進行壓縮氣流由支氣管通過聲道和聲門引起的音頻振蕩所發(fā)生的。氣流通過聲門時使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準周期性的空氣脈沖,空氣脈沖激勵聲道便會產生一些濁音;聲道的某處面積比較小,氣流沖過時便會產生湍流,會得到一種相似噪聲的激勵,對應的則是摩擦音;聲道完全閉合并建立起相應的氣壓,突然進行釋放就是爆破音。(2)語音信號線性預測倒譜系數(shù)。被廣泛應用的特征參數(shù)提取技術的就是線性預測分析技術,很多成功的應用系統(tǒng)都是選用基于線性預測技術進而提取的LPC倒譜系數(shù)作為應用系統(tǒng)的特征。LPC倒譜就是復倒譜。復倒譜就是信號通過z進行變換以后再取其對數(shù),求反z變換所得到的譜。線性預測分析方法其實就是一種譜的估計方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵和信號的譜包絡,對IHg(z)作反z變換就可以得出其復倒譜系數(shù)。改復倒譜系數(shù)是依據線性預測模型直接獲得的,而又被稱為LPC倒譜系數(shù)(LPCC)。

          2.基于聽覺模型的語音特征。(1)聽覺系統(tǒng)模型。一是人類的聽覺系統(tǒng)對于聲音頻率高低和聲波實際的頻率高低不是線性的關系,它對不同聲音頻率信號的敏感度是不一樣的,也可看成是對數(shù)關系。二是關于掩蔽效應指的就是聲音A感知的閉值因為另外的身影的出現(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據主要是頻率群,對頻率群進行劃分會出現(xiàn)許多的很小的部分,每一個部分都會對應一個頻率群,掩蔽效應就發(fā)生在這些部分過程中。所以在進行相應的聲學測量時,頻率刻度一般取非線性刻度。語音識別方面,主要的非線性頻率刻度有Mel刻度、對數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應用,其是最合理的頻率刻度。(2)語音信號Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽覺特性,在頻域將頻率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計算過程:

          篇6

          1 語音識別技術原理

          語音識別是為了讓機器“懂”我們的語言,準確無誤地識別出我們發(fā)出語音內容,并且做出符合語音內容的一系列動作,執(zhí)行我們的意圖。分析人類語言交流通信的過程,可以啟發(fā)我們的研究思路。對人類語音通信流程[1-2]分析如圖1。

          由人類語音通信流程框圖可以看出,人類發(fā)出語音過程如圖左半部分,語音理解過程如圖右半部分。語音識別包括兩種含義,一是:將人類說的話轉換成文字,二是:在充分理解口述語音的基礎上,不僅僅是將語音轉換為文字信息,而且對語音內容也要作出正確響應[3]。在此,本文認為語音識別和語音理解意義等同,所以可用圖1右側部分流程可將語音識別過程。

          目前語音識別技術應用中大部分都是小詞匯量,詞語間相互獨立基于簡單模板匹配工作原理的識別模式。針對這種典型的語音識別模式,原理流程路線圖[4]如圖2所示:

          1.1 基于發(fā)音模型的語音信號產生模型

          語音信號的產生是語音識別技術的基石,在語音信號處理的大部分過程中對語音信號產生模型有很強的依賴性。本文研究過程中,首先對人類發(fā)音過程進行了解:人類發(fā)音流程是首先肺部收縮,迫使氣流通過聲門和聲道引起音頻震蕩產生[3]。根據人的聲道三種不同激勵方式,分別對應產生了三種被大家熟知的發(fā)音類型,分別是濁音,摩擦音或清音,爆破音。

          語音信號可看做由線性系統(tǒng)受到激勵信號的激勵輸出產生。如圖3是基于發(fā)音模型的語音信號產生模型流程圖:

          如圖3建立的語音信號產生模型中認為濁音是周期為N0的沖激信號,且N0=fs/F0(其中F0是基音頻率,fs是采樣頻率)。清音認為是一個均值為0,幅值是正態(tài)分布的波形信號。參數(shù)Av,Au分別用來調節(jié)濁音和清音的幅值。

          從已有語音識別技術研究結果可知,窗函數(shù)類型眾多,使用不同形式的窗函數(shù)對短時分析處理語音信號結果有很大的影響。已知目前應用最廣泛的窗函數(shù)是漢明窗,結合仿真實驗分析可以看出:高斯窗函數(shù)的橫向主瓣寬度最小,但其縱向旁瓣高度最高;漢明窗函數(shù)的橫向主瓣寬度最寬,縱向旁瓣高度是三種窗函數(shù)中最低的。

          2.3 端點檢測

          語音信號的起始點是語音信號處理的關鍵分界點,端點檢測的目的就是找到連續(xù)語音信號中的信號起始點。常用的端點檢測方法有兩種,分別是短時平均能量和短時過零率[6]。當下流行的端點檢測方法是短時平均能量和短時過零率兩者的結合,稱這種方法為雙門限端點檢測算法[7]。

          在實際問題中通常采用兩者結合解決問題。本文同樣是采用兩者結合的方法,利用短時過零率方法檢測語音信號波形穿越零電平的次數(shù),既代表的是清音;用短時平均能量方法計算第y幀語音信號的短時平均能量E(y),既代表的是濁音,進而實現(xiàn)可靠的端點檢測。

          3 特征提取

          目前特征是語音信號預處理中的重要步驟。在實際特征提取中,較常采用的參數(shù)是線性預測倒譜系數(shù)(LPCC)和Mel倒譜系數(shù)(MFCC)。二者采用的均是時域轉換到倒譜域上,但是出發(fā)思路兩者不同。線性預測倒譜系數(shù)(LPCC)以人類發(fā)聲模型為基礎,采用線性預測編碼(LPC)技術求倒譜系數(shù);Mel倒譜系數(shù)(MFCC)以人類聽覺模型為基礎,通過離散傅利葉變換(DFT)進行變換分析。

          其中k表示第k個濾波器,Hm(k)表示第k個mel濾波器組,f(m)為中心頻率,m=1,2,…K,K表示濾波器個數(shù)。

          經過仿真實驗分析比較,可以分析得出Mel倒譜系數(shù)(MFCC)參數(shù)較線性預測倒譜系數(shù)(LPCC)參數(shù)的優(yōu)點,優(yōu)點如下:

          (1)語音低頻信號是語音信息的聚集區(qū),高頻信號相對低頻語音信號更容易受到周圍環(huán)境等的干擾。Mel倒譜系數(shù)(MFCC)將線性頻標轉化為Mel頻標,強調語音的低頻信息,從而突出了有利于識別的信息,屏蔽了噪聲的干擾[8]。LPCC參數(shù)是基于線性頻標的,所以沒有這一特點;

          (2)MFCC參數(shù)無任何假設前提,在各種語音信號預處理情況下均可使用,但是LPCC參數(shù)首先假定所處理的語音信號是AR信號,對于動態(tài)特性較強的輔音,這個假設并不嚴格成立[8];

          (3)MFCC參數(shù)提取過程中需要經過FFT變換,我們可以順便獲得語音信號頻域上的全部信息,不需要多花費時間處理,有利于端點檢測、語音分段等算法實現(xiàn)[8]。

          4 訓練與識別

          訓練和識別是語音識別的中心內容,有很多專家學者研究了一系列成果。語音識別實質是模式匹配的過程,而對分類器和分類決策的設計[9]又是模式匹配的核心。在現(xiàn)有的分類器設計[10-11]中,經常使用的有:動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)分類器、基于人工神經網絡(Artificial Neural Networks,ANN)分類器、基于高斯混合模型(GMM)分類器、基于Bayes規(guī)則的分類器、基于HMM分類器[12]等。

          本文重點討論語音信號預處理中技術及實現(xiàn),對訓練和識別技術不再做研究描述。

          【參考文獻】

          [1]尹巖巖.基于語音識別與合成的低速率語音編碼研究[D].上海師范大學,2013.

          [2]偉偉.通信系統(tǒng)中語音質量評價的研究[D].北京郵電大學,2014.

          [3]朱淑琴.語音識別系統(tǒng)關鍵技術研究[D].西安電子科技大學,2004.

          [4]王偉臻.基于神經網絡的語音識別研究[D].浙江大學,2008.

          [5]鐘林鵬.說話人識別系統(tǒng)中的語音信號處理技術研究[D].電子科技大學,2013.

          [6]周剛,周萍,楊青.一種簡單的噪聲魯棒性語音端點檢測方法[J].測控技術,2015,(02):31-34.

          [7]薛勝堯.基于改進型雙門限語音端點檢測算法的研究[J].電子設計工程,2015,(04):78-81.

          [8]惠博.語音識別特征提取算法的研究及實現(xiàn)[D].西北大學,2008.

          [9]張寧.基于決策樹分類器的遷移學習研究[D].西安電子科技大學,2014.

          篇7

          中圖分類號:TN912.34 文獻標識碼:A

          1語音識別技術

          1.1語音識別技術簡介

          語音識別技術主要分為兩類,一是語音意義的識別,一種是目標聲識別。第一個被稱為語音識別,它是根據聲音的成詞特點對聲音進一步分析,主要應用在人工智能,人機對話和快速輸入等領域。通過訪問聲音的特征,從目標語音中進行提取,該項技術可以區(qū)分多目標語音的種類,確定目標,主要用于戰(zhàn)場目標識別領域,海上偵察系統(tǒng),預警系統(tǒng),軍事聲納識別,車輛聲音識別,火車預警系統(tǒng),動物個體的語音識別和家庭安全系統(tǒng)等。

          科技研究人員通過對語音信號處理技術進行深入的研究,結果發(fā)現(xiàn):人的聽覺系統(tǒng)的聲音配合具有獨特的優(yōu)勢,它能準確地提取目標的聲音特征,準確地辨別聲音的方向和內容分類,所以基于仿生聽覺系統(tǒng)的目標聲識別技術備受現(xiàn)代前沿科技的關注。針對目標聲音識別系統(tǒng)的研究工作成為了現(xiàn)代語音識別技術研究的一個熱門方向,不少科技研究人員正在積極探索先進可行的仿生學理論,特征提取技術和語音識別技術。

          1.2語音識別技術的研究現(xiàn)狀

          語音識別技術主要是通過對監(jiān)測數(shù)據的聲音特性分析,得到聲音特性的樣本文件。語音識別技術是一種非接觸技術,用戶可以很自然地接受。但語音識別技術和其他行為識別技術具有共同的缺點,即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會伴隨著速度,音質的變化而影響到信號的采集和結果的比較。

          在語音識別中,語音識別是最早也是比較成熟的領域。隨著越來越多的應用需求,識別聲音并不局限于語音識別,人們開始深入研究目標識別技術的非語音識別,該項技術已經參照了成熟的語音識別技術的一部分,但由于各自的應用環(huán)境和實際的音頻特征之間的差異,該技術還存在一些差異。

          1.3語音識別技術的實際應用

          在民用方面,目標聲音識別系統(tǒng)可以應用于門禁系統(tǒng),網絡安全,認證,智能機器人,動物語音識別,電子商務和智能交通等領域。在智能交通領域,利用來自車輛識別模型的運動音頻信號,可以實現(xiàn)交通信息的智能化管理。在智能機器人領域,機器人目標聲音識別系統(tǒng)可以作為機器人的耳朵,通過環(huán)境聲音識別并確定聲音的方位,然后再反應外界的聲音,因此可以將其當作家庭自動化服務系統(tǒng)和安全系統(tǒng)。在動物的語音識別領域,可以根據害蟲聲特征來區(qū)分害蟲種類,根據不同的害蟲采取不同的措施。在網絡應用領域,在關于各種在線服務支持的語音識別技術新項目開發(fā)中,可以提高網絡的服務質量,給人們的生活帶來方便。現(xiàn)在,美國,德國和日本都開了電話銀行,語音代替原來的密碼和使用印章,簡化了工作服務流程,提高工作效率。

          在軍事上,目標聲音識別技術來自于第二次世界大戰(zhàn),在探測敵人的炮火和潛艇時,起著重要的識別和定位作用。但由于計算機技術,信號處理技術,光電檢測和雷達檢測技術快速的發(fā)展,使聲探測技術發(fā)展得十分緩慢。直到現(xiàn)代的戰(zhàn)爭,研發(fā)了使用于戰(zhàn)爭中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監(jiān)視,在隱身與反隱身的現(xiàn)代戰(zhàn)爭中為國家的國防事業(yè)做出了不可磨滅的杰出貢獻。通過電,磁,光學和雷達探測技術和主動檢測技術來完成偵察任務已經不能滿足現(xiàn)代戰(zhàn)爭的需求。在武裝直升機技術成熟的當代,隱形轟炸機和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發(fā)展的數(shù)字技術和計算機技術,迫使各國為了實現(xiàn)對目標的定位跟蹤和噪聲識別而重新開始研究被動聲探測技術,關注聲檢測技術。在未來戰(zhàn)爭中,武器裝備發(fā)展的一個重要趨勢是智能化、小型化,一個重要的特點是具備目標識別的能力,并根據不同的對象使用不同的攻擊方法。

          2聽覺系統(tǒng)

          為了設計一個更精確的目標聲音識別系統(tǒng),越來越多的學者開始深入研究仿生學領域。通過研究發(fā)現(xiàn),人類的聽覺系統(tǒng)在聲音的物理方面具有獨特的優(yōu)勢,聲音特征可以準確提取目標識別中聲音的方向,種類和含量,而且還可以提高抗噪聲能力,所以基于人基于語音識別技術的聽覺系統(tǒng)已經成為目前的研究熱點。

          人類聽覺仿生學是模仿人耳的聽覺系統(tǒng)和生理功能,并通過建立數(shù)學模型,根據數(shù)學分析原理得到的聽覺系統(tǒng)。它涉及聲學,生理學,信號處理,模式識別和人工智能等學科,是一個跨學科研究領域的綜合應用。該技術已在軍事,交通,銀行,醫(yī)療治療的許多方面取得了重要應用,是人類實現(xiàn)智能生命的重要研究課題之一。

          人類聽覺系統(tǒng)的處理能力大大超過目前的聲音信號處理水平。從人類聽覺系統(tǒng)的心理和生理特點視角,許多研究人員對接聽過程中的語音識別進行深入的研究。目前,許多學者提出了不同的聽覺模型,這些模型大多是一些基于語音識別和語音質量評價系統(tǒng)的聽覺模型,模擬人耳聽覺功能的生理結構,這些應用處理方法大大提高了系統(tǒng)的性能。

          篇8

          中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2015)29-0155-04

          Research Status and Development Trend of Russian Speech Recognition Technology

          MA Yan-zhou

          (PLA University of Foreign Languages, Luoyang 471003, China)

          Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.

          Key words: speech recognition; hmm;russian acoustic models; russian language models

          俄語(Русскийязык)[1]是俄羅斯和聯(lián)合國的官方語言,也是我國少數(shù)民族正式語言。在前蘇聯(lián)和俄羅斯使用,俄語在蘇聯(lián)時期具有很重要的地位,直到現(xiàn)在仍然有些獨聯(lián)體國家在廣泛使用,雖然這些國家已經開始強調本地語言的重要性,但在這些國家之間依然使用俄語進行交流。全球有超過一億四千萬把俄語作為母語使用,有近四千五百萬人以第二語言使用,使用俄語媒體的有3億多人。我國俄羅斯族使用俄語進行交流,聚集地分布在新疆地區(qū)的阿勒泰、伊犁、塔城及內蒙古呼倫貝爾市的額爾古納、滿洲里等地,

          語音識別(Speech Recognition)[2]是指在各種情況下,識別出語音的內容,讓機器聽懂人說的話,根據其信息而執(zhí)行人的不同意圖。它是一門交叉學科,涉及與計算機、語音語言學、通信、信號處理、數(shù)理統(tǒng)計、神經心理學人工智能、和神經生理學等學科。能夠能滿足不同需要的語音識別系統(tǒng)的實現(xiàn)已經成為可能,它的前提是模式識別、信號處理技術、計算機技術和聲學技術等的發(fā)展。近年來,軍事、交通等領域,尤其在計算機、人工智能等領域得到廣泛應用。

          俄語語音識別是一個有巨大潛力的研究方向,不僅能夠為人們的生產生活、日常交往提供極大的便捷性和高效性,而且在政治、軍事、經濟等各個領域都有著重要的研究價值和應用前景。本文著重介紹語音識別發(fā)展歷程、闡述俄語語音識別關鍵技術、分析俄語語音識別未來的發(fā)展趨勢。

          1 俄語語音識別的現(xiàn)狀

          俄語連續(xù)語音識別取得快速發(fā)展,利益于技術的進步。隨著語音識別在技術層面的不斷突破與創(chuàng)新,對英語的識別慢慢成熟,然后逐漸擴展到其他語種如漢語、俄語等。

          1.1語音識別技術的發(fā)展

          20世紀50年代,語音識別的研究開始借助機器來實現(xiàn)。1952年,一個特定人獨立數(shù)字識別系統(tǒng)[3]由貝爾(Bell)實驗室的Davis、Diddulph和Balashelk首次研制,該系統(tǒng)成功識別10個英語數(shù)字。1959年,英格蘭的Fry和Denes利用譜分析技術和模板匹配技術,提高了音素的識別精度,建立了一個能夠識別9個輔音和4個元音的識別系統(tǒng)。20世紀60年代,經過Faut和Stevens的努力,語音生成理論初步形成。動態(tài)規(guī)劃方法[4]由蘇聯(lián)的Vintsyuk提出,并實現(xiàn)了對兩段語音進行對齊。70年代取得一系列重大突破,基本實現(xiàn)孤立詞識別。俄羅斯推進了模板匹配思想在語音識別中的應用;利用動態(tài)規(guī)劃方法實現(xiàn)語音識別也由日本的科學家實驗成功。20世紀80年代,語音識別研究的一個主要特點是由模板匹配方法向統(tǒng)計建模方法的轉變,特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知,但是直到20世紀80年代中期HMM模型才廣泛被世界各地的語音識別實驗室熟悉和采納。另一個新方向是利用神經網絡解決語音識別問題,促進了該技術在語音識別領域的應用[7-9]。20世紀80年代后期,在DAPRA的支持下,對大詞匯連續(xù)語音識別系統(tǒng)的研制也取得了顯著的成果,研究機構主要有CMU、BBN、林肯實驗室、MIT、AT&T貝爾實驗室。

          20世紀90年代以來,語音識別開始實用化研究,并取得了突破性的進展。其中算法的研究取得了非常明顯的效果,并提升了系統(tǒng)的性能,如最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR),最大后驗概率準則估計(MaximumA-Posteriori Estimation, MAP),以及用于模型參數(shù)綁定的決策樹狀態(tài)聚類等算法,這些算法的不斷優(yōu)化,也使得應用于實際的語音識別不斷出現(xiàn)。最具有有代表性的系統(tǒng)有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform語音平臺,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美國國家標準和技術研究所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不斷推動下,各個研究機構不斷嘗試語音識別任務,目的是不斷提高識別的性能。進入21世紀,在向廣度和深度兩方面,自動語音識別得到了更為廣泛的研究。魯棒性語音識別,進行了了細致的調研,特別是在置信度和句子確認方面非常有效,尤其對處理病句。在21世紀的前10年,信息技術領域最重要的十大科技發(fā)展技術之一就有語音識別技術的一席之地,人機接口關鍵的語音識別技術,已經成為一個具有競爭性的新興高技術產業(yè),它的實用化研究將成為未來的方向。

          1.2俄語語音識別技術的發(fā)展

          語音技術的研究主要集中在幾個主要的語言,如英語,法語,西班牙語,漢語和西班牙語,一些其他語言尤其是東歐語言很少受到注意。但是近幾年在俄羅斯,捷克,波蘭,塞爾維亞,克羅地亞等俄語區(qū)對俄語語音技術的研究活動正在穩(wěn)步上升。

          俄羅斯科學院緊跟世界語音識別技術的發(fā)展,結合俄語自身的獨有發(fā)音特點進行了卓有成效的研究并取得了一系列的成果。在開發(fā)聲學,詞匯和語言模型時采取特別重視俄語的細節(jié),對于聲學模型,采用知識和基于統(tǒng)計的方法來創(chuàng)建幾個不同的音素集10。對于語言模型(LM),從不同網站自動收集新聞文本語料,用統(tǒng)計分析的方法將訓練文本數(shù)據和語法相結合,計算不同情況下n-gram中單詞的頻率,優(yōu)化n-gram模型,以建立更好的n-gram模型[11]。在基本語音識別單元的問題上采用距離最小信息不匹配的原則,建立語素級單元,顯著減少誤差概率[12]。

          語料庫是語音識別最基本的支撐,文本語料和口語語料都是一個語料庫不可或缺的組成部分,任缺其一則語料庫就不能反映該語言的完整信息,也沒有辦法在此基礎上進行大詞匯、非特定人連續(xù)俄語語音識別的研究[13]。俄羅斯對語料庫的研究起步比較晚,在20世紀一直落后于世界語料庫的發(fā)展,缺乏系統(tǒng)的理論研究和先進的實踐成果。但近十年來,隨著俄羅斯國家語料庫建立和不斷完善,俄語語音技術的研究正在慢慢興起并取得了一些矚目的成就。

          國內對俄語語音的研究主要集中在教學方面。使用統(tǒng)計的方法,基于HMM對俄語語音進行建模和識別研究,目前還沒有發(fā)現(xiàn)相關的文獻記錄。

          2 語音識別技術

          語音識別系統(tǒng)根據角度、范圍、性能等差別,有以下的分類。

          根據詞匯量的大小分可為小詞匯量(10至100)、中詞匯量(100至500)和大詞匯量(大于500)。根據發(fā)音方式可分為孤立詞(isolated word)識別、連接詞(connected word)識別、連續(xù)語音(continuous word)識別等。根據說話人特征可分為特定(speaker-dependent)說話人和非特定(speaker-independent)說話人。根據語音識別的方法不同進行了模板匹配、隨機模型和概率語法分析等分類方法。

          2.1 語音識別基本原理

          通過計算機的輔助功能把輸入的語音信號變換為對應的文本和命令,并且能夠接受人類的語音、理解人類的意圖,是語音識別技術研究的根本目的。語音識別系統(tǒng)核心是一套語音取樣、識別、匹配的模式匹配系統(tǒng)[2],基本原理如圖1所示。

          語音識別系統(tǒng)由三個基本單元組成,它包含特征提取、模式匹配和參考模式庫,雖然它是模式識別系統(tǒng),但它的結構要比普通的模式識別系統(tǒng)要復雜,因為語音所包含的信息是復雜多樣的語言信息,結構也是多變的。首先對輸入的語音信號進行預處理,預處理包括適當放大信號功率并對增益進行有效控制,之后進行反混疊濾波以消除信號的干擾;然后將模擬信號轉化為數(shù)字信號即數(shù)字化處理,便于存儲和處理;然后進行特征提取,并使用一些參數(shù)來表示的語音信號的特性;最后對其進行識別。語音識別又分為兩階段:訓練和識別。在訓練階段,利用特征參數(shù)表示語音信號的相應特征,得到標準數(shù)據即模板,將模板構建成一個數(shù)據庫即模板庫;在識別階段,將語音特征與模板庫中的每一個模板進行比較,找到了最相似的參考模板,這就是識別的結果。

          2.2 HMM模型技術

          語音識別早期采用的有矢量量化(Vector quantization, VQ)技術、動態(tài)時間規(guī)整(dynamic time warping, DTW)技術等,從處理難度上看,最簡單的是小詞匯量、特定人、孤立詞的語音識別,最難解決的是大詞匯量、非特定人、連續(xù)語音識別。當今語音識別系統(tǒng)采用的主流算法是HMM模型技術。

          HMM模型的狀態(tài)不能被直接觀察到,但可以通過觀測向量序列來觀察到,這些向量都是通過某些特定的概率密度分布來表現(xiàn)為各種狀態(tài)的,每個觀測向量都是由一個狀態(tài)序列產生的,這些狀態(tài)序列具有相應的概率密度分布。HMM是一個雙重隨機過程:具有一定狀態(tài)數(shù)量的隱馬爾可夫鏈和顯示隨機函數(shù)集。HMM的基本問題及解決算法6-9

          1)評估問題(前向算法)。

          現(xiàn)有觀測序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何計算觀測序列的概率,進一步可對該HMM做出相關評估。利用forward算法分別以每個HMM產生給定觀測序列O的概率進行計算,然后從其中選出最優(yōu)秀的HMM模型。

          經典應用例子就是語音識別。在HMM的語音識別描述中,每個單詞對應一個HMM,每個觀測序列全部由一個單詞的語音來構成,單詞的識別可以通過評估而選出最可能的HMM,此HMM由產生觀測序列所代表的讀音實現(xiàn)。

          2)解碼問題(Viterbi算法)

          現(xiàn)有觀測序列O=O1O2O3…Ot以及模型參數(shù)λ=(π,A,B),如何尋找最優(yōu)的隱含狀態(tài)序列。此類問題比較關注馬爾科夫模型中的隱含狀態(tài),在這些狀態(tài)中雖然不能直接觀測,但價值更大,可以利用Viterbi算法來解決。

          實際例子是進行分詞,分詞問題可以用HMM來解決。這句話的分割方法可以看做是一個隱式的狀態(tài),而這句話可以被視為一個給定的條件,從而找出基于HMM的可能正確的分割方法。

          3)訓練問題(Baum-Welch算法即前向后向算法)

          此時HMM的模型參數(shù)λ=(π,A,B)未知,對這些參數(shù)進行調整,使得觀測序列O=O1O2O3…Ot的概率最大,使用Reversed Viterbi算法以及Baum-Welch算法可以解決。

          2.3 大詞匯量連續(xù)語言識別

          在語音識別研究中難度和挑戰(zhàn)性最大為課題應該是基于大詞匯量的、非特定人的連續(xù)語音識別[13]。在詞匯量大于1000詞的時候,比較容易混淆的詞數(shù)量增加,誤識率約為基于小詞匯量的、特定人的孤立詞識別系統(tǒng)的50倍左右。而且還帶來兩個重要的、不易解決的問題:語流的切分和連續(xù)語音的發(fā)音變化。此時采用統(tǒng)一框架可以有效解決這個問題。大詞匯量連續(xù)語音識別總體框架[14]如圖2所示。

          俄語語音信號分析后,形成特征向量,并通過字典識別模型,然后,根據語言模型的語法,將輸入的語音與模板匹配,在句子層面進行組合。從俄語聲學模型、俄語語言模型敘述大詞匯量連續(xù)語音識別的過程。

          2.3.1聲學模型

          設計俄語語音識別系統(tǒng)底層相應的HMM子詞單元模型,需要充分考慮俄語聲學和語音學的特征。俄語基本聲學單元的選擇是聲學建模過程中一個基本而重要的問題。在俄語連續(xù)語音識別中,可供選擇的基本單元包括詞、音節(jié)、元輔音等。識別基本單元的選擇一般基于語音學知識。

          俄語字母是語音的書面形式,每個俄語字母都有自己的字母名稱。元音字母的名稱和讀音相同,輔音字母的名稱是在該輔音后加一個元音[15-16]。如字母с的名稱為эс,字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫詞。俄語字母共有33個字母如表1所示。

          根據俄語詞的發(fā)音特征、音節(jié)的發(fā)音特征和字母的發(fā)音特征,選擇音素作為子詞單元,然后就可以進行HMM訓練,首先用一種很粗糙的方法進行初始分段,然后向前向后算法或K-均值算法用于多次迭代,自動收斂到一個最佳的模型,并實現(xiàn)了一個合理的子詞分割。這樣就可以初步完成俄語的聲學建模,建設一個俄語語音參考模式庫。

          2.3.2 統(tǒng)計語言模型

          自然語言處理問題必然要乃至統(tǒng)計語言模型[17],如語音識別、機器翻譯、分詞、詞性標注等等。統(tǒng)計語言模型是計算概率的模型,即。使用語言模型,可以確定一個單詞序列的概率,或給定一個單詞的數(shù)目,它可以預測下一個最有可能的單詞。

          那么如何計算一個句子的概率呢?給定句子(詞語序列),它的概率可以表示為:

          由于上式中的參數(shù)過多,因此需要近似的計算方法。下面介紹適用于俄語的n-gram統(tǒng)計語言模型。

          n-gram模型即n-1階馬爾科夫模型,首先假設:當前詞的出現(xiàn)概率僅僅與前面n-1個詞相關。因此(1)式可以近似為:

          當n值為1、2、3時,n-gram模型分別稱為unigram、bigram和trigram語言模型。n-gram模型的參數(shù)就是條件概率。N取值越大,模型越準確但計算越復雜計算量越大。在俄語語言模型的建立過程中,采用最多是二元模型和三元模型。

          2.3.3 連續(xù)語音識別系統(tǒng)的性能評測

          評定連續(xù)語音識別系統(tǒng)的優(yōu)劣,觀測系統(tǒng)的性能,一般都是針對不同的識別任務,不同的任務單詞庫和任務語句庫,需要不同的評價標準。如果要想粗略地評估某個系統(tǒng),可以從兩個方面去考慮,一是系統(tǒng)識別任務的難易程度即復雜性;另一個是采用該系統(tǒng)的識別系統(tǒng)的識別方法對該難度的識別任務的識別效果即識別率。在連續(xù)語音識別系統(tǒng)中,通過對音素、音節(jié)或詞的識別率進行識別性能評價,常用的系統(tǒng)參數(shù)是正確率(正確率),錯誤率和識別準確率。

          其中的正確數(shù)、轉換數(shù)、插入數(shù)和脫落數(shù),采用主觀的方法來目測,馬可以通過統(tǒng)計的方法來得到。

          2.4 HTK工具

          語音識別過程涉及的算法復雜,其中最為著名的HTK由劍橋大學研發(fā),主要用來建立基于HMM的大規(guī)模連續(xù)語音識別系統(tǒng)。該軟件集為開放源代碼,可以在UNIX/Linux和Windows環(huán)境下運行。HTK提供了一系列命令函數(shù)用于語音識別,包括一系列的運行庫和工具,使用基于ASNIC模塊化設計,可以實現(xiàn)語音錄制、分析、標示、HMM的訓練、測試和結果分析。整個HTK的工作過程包括數(shù)據準備、模型訓練和識別過程。

          3 語音識別的應用

          隨著計算機技術的進步、算法的不斷優(yōu)化、信息處理技術的智能化,俄語語音識別技術的發(fā)展會越來越光明。應用的范圍也會越來越廣,可能會出現(xiàn)一些新的應用。

          1)俄語語音信息檢索

          網絡技術和多媒體技術的迅速發(fā)展,數(shù)據量急劇增多,如何在海量數(shù)據中挑選出有用的信息,并進行相應的分類和檢索,對合理地利用信息資源具有重要的意義。多媒體檢索技術應運而生。

          2)俄語發(fā)音自學技術

          非母語語言學習成為目前教育領域的一個熱點,而自學是語言學習的一個有效途徑,它具有不受時間和空間限制、靈活方便的特點,一種稱為計算機輔助語言學習的技術誕生了。有幾個普通問題和關鍵技術是必須要考慮和解決的:標準發(fā)音語料庫和非標準發(fā)音語料庫、學習者發(fā)音的分級標準、語音對齊、衡量發(fā)音質量的評判標準和發(fā)音矯正。

          3)基于俄語語音情感處理

          人與人的交流,除了語言信息外,非語言信息也起著非常重要的作用,包含在語音信號中的情感因素[18],也反映了信息的一個方面。情感的分析和識別也是一個非常困難的研究方向。

          4)嵌入式俄語語音識別技術

          后PC時代智能終端的飛速發(fā)展,為人機之間的自然、快捷交互提供了可能。當前嵌入式語音識別的應用領域還比較有限,未來應用可能會更加廣泛。

          4 總結

          語音識別技術的實用研究是一項極具挑戰(zhàn)性的工作,雖然經歷了近半個世紀的發(fā)展,取得了一些突破性的進展。語音識別技術在俄語方面的應用更是如此,不僅要解決語音識別技術本身的問題,還要解決高質量的俄語語音語料庫和文本語料庫的問題,同時還要解決各種算法與俄語適應和匹配等其他問題,如俄語自然語言的識別與理解、俄語語音信息的變化范圍與幅度、俄語語音的清晰度、俄語語音發(fā)音與環(huán)境噪聲及上下文的影響等等。雖然面臨諸多困難,但是隨著人類文明的不斷發(fā)展與科技的不斷進步,相信這些問題會在不久的將來逐一得到解決,展現(xiàn)在人們面前的是更加流暢、更加智能的人機交互界面。

          參考文獻

          [1] 趙力.語音信號處理 [M].北京:機械工業(yè)出版社,2011:191-215.

          [2] 韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2013:241-255.

          [3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.

          [4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.

          [5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.

          [6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.

          [7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.

          [8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.

          [9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.

          [10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.

          [11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.

          [12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.

          [13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.

          [14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.

          [15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.

          篇9

          語音識別技術目前在嵌入式系統(tǒng)中的應用主要為語音命令控制,它使得原本需要手工操作的工作用語音就可以方便地完成。語音命令控制可廣泛用于家電語音遙控、玩具、智能儀器及移動電話等便攜設備中。使用語音作為人機交互的途徑對于使用者來說是最自然的一種方式,同時設備的小型化也要求省略鍵盤以節(jié)省體積。

          嵌入式設備通常針對特定應用而設計,只需要對幾十個詞的命令進行識別,屬于小詞匯量語音識別系統(tǒng)。因此在語音識別技術的要求不在于大詞匯量和連續(xù)語音識別,而在于識別的準確性與穩(wěn)健性。

          對于嵌入式系統(tǒng)而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點DSP,有時甚至只能考慮使用MPU,這意味著算法的復雜度受到限制;其次,嵌入式系統(tǒng)對體積有嚴格的限制,這就需要一個高度集成的硬件平臺,因此,SoC(System on Chip)開始在語音識別領域嶄露頭角。SoC結構的嵌入式系統(tǒng)大大減少了芯片數(shù)量,能夠提供高集成度和相對低成本的解決方案,同時也使得系統(tǒng)的可靠性大為提高。

          語音識別片上系統(tǒng)是系統(tǒng)級的集成芯片。它不只是把功能復雜的若干個數(shù)字邏輯電路放入同一個芯片,做成一個完整的單片數(shù)字系統(tǒng),而且在芯片中還應包括其它類型的電子功能器件,如模擬器件(如ADC/DAC)和存儲器。

          筆者使用SoC芯片實現(xiàn)了一個穩(wěn)定、可靠、高性能的嵌入式語音識別系統(tǒng)。包括一套全定點的DHMM和CHMM嵌入式語音識別算法和硬件系統(tǒng)。

          1 硬件平臺

          本識別系統(tǒng)是在與Infineon公司合作開發(fā)的芯片UniSpeech上實現(xiàn)的。UniSpeech芯片是為語音信號處理開發(fā)的專用芯片,采用0.18μm工藝生產。它將雙核(DSP+MCU)、存儲器、模擬處理單元(ADC與DAC)集成在一個芯片中,構成了一種語音處理SoC芯片。這種芯片的設計思想主要是為語音識別和語音壓縮編碼領域提供一個低成本、高可靠性的硬件平臺。

          該芯片為語音識別算法提供了相應的存儲量和運算能力。包括一個內存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點DSP,運算速度可達到約100MIPS.MCU核是8位增強型8051,每兩個時鐘周期為一個指令周期,其時鐘頻率可達到50MHz。

          UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數(shù)據在芯片內部均按16bit格式保存和處理。對于語音識別領域,這樣精度的ADC/DAC已經可以滿足應用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

          2 嵌入式語音識別系統(tǒng)比較

          以下就目前基于整詞模型的語音識別的主要技術作一比較。

          (1)基于DTW(Dynamic Time Warping)和模擬匹配技術的語音識別系統(tǒng)。目前,許多移動電話可以提供簡單的語音識別功能,幾乎都是甚至DTM和模板匹配技術。

          DTW和模板匹配技術直接利用提取的語音特征作為模板,能較好地實現(xiàn)孤立詞識別。由于DTW模版匹配的運算量不大,并且限于小詞表,一般的應用領域孤立數(shù)碼、簡單命令集、地名或人名集的語音識別。為減少運算量大多數(shù)使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運算。

          DTW和模板匹配技術的缺點是只對特定人語音識別有較好的識別性能,并且在使用前需要對所有詞條進行訓練。這一應用從20世紀90年代就進入成熟期。目前的努力方向是進一步降低成本、提高穩(wěn)健性(采用雙模板)和抗噪性能。

          (2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識別算法。這是Rabiner等人在20世紀80年代引入語音識別領域的一種語音識別算法。該算法通過對大量語音數(shù)據進行數(shù)據統(tǒng)計,建立識別條的統(tǒng)計模型,然后從待識別語音中提取特征,與這些模型匹配,通過比較匹配分數(shù)以獲得識別結果。通過大量的語音,就能夠獲得一個穩(wěn)健的統(tǒng)計模型,能夠適應實際語音中的各種突況。因此,HMM算法具有良好的識別性能和抗噪性能。

          基于HMM技術的識別系統(tǒng)可用于非特定人,不需要用戶事先訓練。它的缺點在于統(tǒng)計模型的建立需要依賴一個較大的語音庫。這在實際工作中占有很大的工作量。且模型所需要的存儲量和匹配計算(包括特征矢量的輸出概率計算)的運算量相對較大,通常需要具有一定容量SRAM的DSP才能完成。

          在嵌入式語音識別系統(tǒng)中,由于成本和算法復雜度的限制,HMM算法特別CHMM(Continuous density HMM)算法尚未得到廣泛的應用。

          (3)人工神經網絡ANN(Artificial Neural Network)。ANN在語音識別領域的應用是在20世紀80年代中后期發(fā)展起來的。其思想是用大量簡單的處理單元并行連接構成一種信息處理系統(tǒng)。這種系統(tǒng)可以進行自我更新,且有高度的并行處理及容錯能力,因而在認知任務中非常吸引人。但是ANN相對于模式匹配而言,在反映語音的動態(tài)特性上存在重大缺陷。單獨使用ANN的系統(tǒng)識別性能不高,所以目前ANN通常在多階段識別中與HMM算法配合使用。

          3 基于HMM的語音識別系統(tǒng)

          下面詳細介紹基于HMM的語音識別系統(tǒng)。首先在UniSpeech芯片上實現(xiàn)了基于DHMM的識別系統(tǒng),然后又在同一平臺上實現(xiàn)了基于CHMM的識別系統(tǒng)。

          3.1 前端處理

          語音的前端處理主要包括對語音的采樣、A/D變換、分幀、特片提取和端點檢測。

          模擬語音信號的數(shù)字化由A/D變換器實現(xiàn)。ADC集成在片內,它的采樣頻率固定為8kHz。

          特征提取基于語音幀,即將語音信號分為有重疊的若干幀,對每一幀提取一次語音特片。由于語音特征的短時平穩(wěn)性,幀長一般選取20ms左右。在分幀時,前一幀和后一幀的一部分是重疊的,用來體現(xiàn)相鄰兩幀數(shù)據之間的相關性,通常幀移為幀長的1/2。對于本片上系統(tǒng),為了方便做FFT,采用的幀長為256點(32ms),幀移為128點(16ms)。

          特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。在DHMM系統(tǒng)中,使用24維特征矢量,包括12維MFCC(Mel Frequency Cepstrum Coefficient)和12維一階差分MFCC;在CHMM系統(tǒng)中,在DHMM系統(tǒng)的基礎上增加了歸一化能量、一階差分能量和二階差分能量3維特征,構成27維特征矢量。對MFCC和能量分別使用了倒譜均值減CMS(Cepstrum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性。

          3.2 聲學模型

          在HMM模型中,首先定義了一系列有限的狀態(tài)S1…SN,系統(tǒng)在每一個離散時刻n只能處在這些狀態(tài)當中的某一個Xn。在時間起點n=0時刻,系統(tǒng)依初始概率矢量π處在某一個狀態(tài)中,即:

          πi=P{X0=Si},i=1..N

          以后的每一個時刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時刻系統(tǒng)的狀態(tài)有關,并且依轉移概率矩陣A跳轉,即:

          系統(tǒng)在任何時刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個Rq空間隨機觀察矢量On。On的分布B稱為輸出概率矩陣,只取決于Xn所處狀態(tài):

          Pxn=Si{On}=P{On|Si}

          因為該系統(tǒng)的狀態(tài)不為外界所見,因此稱之為“穩(wěn)含馬爾科夫模型”,簡稱HMM。

          在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時,其概率密度函數(shù)一般使用混合高斯分布擬合。

          其中,M為使用的混合高斯分布的階數(shù),Cm為各階高期分布的加權系數(shù)。此時的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡稱CHMM模型。在本識別系統(tǒng)中,采用整詞模型,每個詞條7個狀態(tài)同,包括首尾各一個靜音狀態(tài);每個狀態(tài)使用7階混合高斯分布擬合。CHMM識別流程如圖1所示。

          由于CHMM模型的復雜性,也可以假定On的分布是離散的。通常采用分裂式K-Mean算法得到碼本,然后對提取的特征矢量根據碼本做一次矢量量化VQ(Vector Quantization)。這樣特征矢量的概率分布上就簡化為一個離散的概率分布矩陣,此時的HMM模型稱為離散HMM模型(Discrete density HMM),簡稱DHMM模型。本DHMM識別系統(tǒng)使用的碼本大小為128。DHMM識別流程如圖2所示。

          DHMM雖然增加了矢量量化這一步驟,但是由于簡化了模型的復雜度,從而減少了占用計算量最大的匹配計算。當然,這是以犧牲一定的識別性能為代價。

          筆者先后自己的硬件平臺上完成了基于DHMM和CHMM的識別系統(tǒng)。通過比較發(fā)現(xiàn),對于嵌入式平臺而言,實現(xiàn)CHMM識別系統(tǒng)的關鍵在于芯片有足夠運算太多的增加。因為詞條模型存儲在ROM中,在匹配計算時是按條讀取的。

          3.3 識別性能

          筆者使用自己的識別算法分別對11詞的漢語數(shù)碼和一個59詞的命令詞集作了實際識別測試,識別率非常令人滿意,如表1所示。

          表1 漢語數(shù)碼識別率

          DHMMCHMM特征矢量維數(shù)2427識別率93.40%98.28%識別速度(11詞)10ms50ms模型大?。?個詞條)1.5KB<5.5KB碼本6KB無對于59詞命令詞集的識別,還增加了靜音模型。由于基線的識別率已經很高,所以靜音模型的加入對于識別率的進一步提高作用不大,如表2所示。但靜音模型的加入可以降低對端點判斷的依賴。這在實際使用中對系統(tǒng)的穩(wěn)健性有很大的提高。

          表2 59詞命令詞集識別率

          篇10

          DOIDOI:10.11907/rjdk.162740

          中圖分類號:TP319

          文獻標識碼:A文章編號文章編號:16727800(2017)005005703

          0引言

          隨著智能自動化技術的迅速發(fā)展[14],智能化研究越來越受到人們關注,在日常生活中的應用需求也日益增多[56]。在書房、辦公室等場所中,書籍一般是由人工查找并取出的,在一定程度上影響了人們查閱書籍的時效性。如果能設計一種識別語音查找并推出書籍的書架,將解決人們在書房中對書籍定位難、查找耗時長等問題。

          在圖書查閱過程中,書籍定位是較為常見的問題之一。針對這類問題,張郁松等[7]以物聯(lián)網圖書館智能書架的結構化、通用化設計為目標,利用超高頻(UHF)射頻識別(RFID)技術,設計了一種具有實時檢測與定位功能的智能書架,較好地提高了書架工作效率;舒遠仲等[8]基于改進的RFID室內定位技術設計了一款應用于圖書館中的智能書架系統(tǒng),將書架定位到每一層,精確到書架的最小單元格,并且降低了系統(tǒng)的復雜度和成本,較為有效地提高了讀者借閱效率和館員工作效率。

          隨著射頻技術的不斷發(fā)展,圖書館等場所中對圖書的定位方式有很大改善,但是由于條件限制,語音識別定位書架在圖書館等禁止喧嘩場所禁止使用。在可喧嘩環(huán)境下,如家庭、辦公室等場所中,語音識別可作為簡單易用、無需接觸、無需攜帶外部設備的定位方法,具有較好的應用前景。本系統(tǒng)首先將書籍信息存儲到可擴展標記語言(XML)中,然后通過語音識別將語音信息與文本信息進行匹配,最后將定位結果發(fā)送至控制中心,通過電機執(zhí)行動作完成推出書籍功能。

          1硬件平臺架構

          本系統(tǒng)采用UPAtom510平臺作為系統(tǒng)的語音識別終端,同時采用STC89C52單片機[9]作為系統(tǒng)的控制中心。由于系統(tǒng)功能需求,開發(fā)平臺需要擴展外部設備。因此,除選用UPAtom510平臺和STC89C52單片機外,還需外接話筒、TB6600步進電機驅動模塊與42BYGH47401A步進電機,作為整個系統(tǒng)的硬件平臺架構。

          系統(tǒng)采用UPAtom510平臺作為識別終端,該平臺是北京博創(chuàng)科技有限公司針對嵌入式系統(tǒng)和微機原理課程研發(fā)的教學與實驗平臺。目前在UPAtom510上已經成功移植了Ubuntu、WinCE和Windows XP等操作系統(tǒng)。根據系統(tǒng)功能需求,在該平臺上搭建了Ubuntu操作系統(tǒng),并使用QT開發(fā)工具完成了人機交互界面的開發(fā)。UPAtom510平臺底板如圖1所示。

          電機選用42BYGH47401A步進電機[1011],該電機為兩項四線步進電機,電流1.5A,輸出力矩0.55Nm。此模塊有兩種用途:書籍定位以及將書籍從書架中推出,方便用戶取書。

          本系統(tǒng)采用TB6600步進電機驅動器,它具有如下特性:輸入電壓為DC9~42V,可以驅動42BYGH47401A步進電機正常轉動;含有撥碼開關,針對不同電流要求,具有不同選擇;模塊上集成大面積散熱片,具有較好的散熱效果,可滿足實際應用需求。

          智能書架的硬件連接仿真結果如圖2所示,智能書架的模擬三視效果如圖3所示。

          2系統(tǒng)框架設計

          本系統(tǒng)的框架設計主要利用話筒采集語音信息,并將語音傳遞給UPAtom510平臺,UPAtom510平臺經過語音識別后,將書籍位置信息發(fā)送給STC89C52單片機,單片機根據書籍位置信息給電機驅動器發(fā)送控制命令,電機驅動器控制電機轉動,帶動整個智能書架運行。書架在書籍定位后將書籍推出,使得該書架具有智能化、人性化的特點。系統(tǒng)框架如圖4所示。

          3語音識別方法設計

          目前,常見的電子產品中的語音識別均由單片機(MCU)或數(shù)字信號處理(DSP)作為硬件平臺來實現(xiàn)。這一類語音識別[1217]產品主要采用孤立詞識別,一般有如下兩種方案:一種是使用隱馬爾科夫統(tǒng)計模型(HMM)框架設計的非特定人群識別,另一種是基于動態(tài)規(guī)劃(DP)原理的特定人群識別。這兩種方法在應用上各有優(yōu)缺點。

          篇11

          1.引言

          語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發(fā)的Audry系統(tǒng)是第一個可以識別10個英文數(shù)字的語音識別系統(tǒng)。隱馬爾可夫模型是20世紀70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質性的突破。目前大多數(shù)連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。[1]

          一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法。語音識別一個根本的問題是合理的選用特征。特征參數(shù)提取的目的是對語音信號進行分析處理,去掉與語音識別無關的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。非特定人語音識別系統(tǒng)一般側重提取反映語義的特征參數(shù),盡量去除說話人的個人信息;而特定人語音識別系統(tǒng)則希望在提取反映語義的特征參數(shù)的同時,盡量也包含說話人的個人信息。

          而隨著時頻技術的研究發(fā)展,使人們在進行信號處理時,可以將語音信號分解在一組完備的正交基上。從而,語音信號的能量在分解以后將分散分布在不同的基上。但是,語音信號是一種典型的非平穩(wěn)信號,其性質隨時間快速變化,在兩個不同的時間瞬間,在同一個頻率鄰域內,信號可以有完全不同的能量分布。因此,有必要找到一種精確表示語音信號時頻結構,便于特征提取的方法。[2]

          立足于此,本文提出,通過平移窗口,用余弦基乘以窗口函數(shù),構造出局部余弦基,分離不同時間區(qū)間,很適合于逼近語音信號。本文使用這種具有活動窗口特性的局部余弦基表示語音信號。為了減少計算量,并進一步提高局部余弦基原子時頻分布的分辨率,采用匹配追蹤(MP)算法分解信號,并結合時頻分析技術得到最優(yōu)局部余弦基原子的魏格納-維利分布(WVD)[2],從而得到信號精確的時頻結構[3],進行特征提取。此外,結合語音信號的美爾頻率倒譜系數(shù)(MFCC)一起作為該信號的特征向量,通過隱馬爾科夫(HMM)模型進行識別。實驗證明。這種多參數(shù)語音識別算法提高了識別的準確度和速度。

          2.局部余弦基建模

          通過光滑地劃分時間序列為任意長度的子區(qū)間(如圖1),可使每一個時間段分別由重疊正交基表示,而整個時間序列的基函數(shù)又構成時頻平面的正交鋪疊,因此局部余弦變換對在不同時間段有不同的波形的語音信號有很強的針對性。

          圖1 重疊窗口劃分時間軸

          Figure1 lapped window divides time axis

          圖1中為重疊窗口函數(shù)[3]:

          (1)

          式中為單調遞增的輪廓函數(shù),定義為[3]:

          (2)

          局部余弦函數(shù)族構成了實數(shù)軸上平方可積函數(shù)空間的規(guī)范正交基:

          (3)

          式中為窗口支集伸縮參數(shù);為第P段時間起點;n()表示正交基序列號。

          語音信號可表示為:

          (4)

          是余弦基原子,。其中是窗口支集邊界參數(shù),為窗口支集伸縮參數(shù),是輪廓函數(shù)的尺度參數(shù),這保證了窗口支集只與相鄰的具有適當對稱性的窗口重合,達到局部余弦基精確覆蓋整個時頻平面的目的。

          3.匹配追蹤法選取最佳基

          由Mallat和Zhang引入的匹配追蹤算法運用貪婪技巧減少了計算的復雜性。它從局部余弦基構成的冗余字典中一個一個挑選向量,每一步都使信號的逼近更為優(yōu)化。

          MP算法將信號分解成一簇時頻原子的線性表達,這些原子選自高冗余度的函數(shù)字典中,且最好地符合內在結構。假設函數(shù)集是Hilbert空間中一個完備字典,滿足,最優(yōu)的M階近似為:

          (5)

          設由M個時頻函數(shù)近似的信號與的誤差最小,表達式如下:

          (6)

          其中代表所選函數(shù)的索引。

          首先按照某個選擇函數(shù)(與的內積最大)逐個挑選出時頻函數(shù),分解為:,設初始輸入信號為初始殘差信號,表示f(t)在方向上近似后的冗余部分。

          假設已有表示經過前M-1次迭代后,中未表達部分:選定為最匹配的時頻函數(shù),按如下公式分解為:

          (7)

          由于每步中與正交,如果字典是完備的,則迭代收斂于f,滿足:

          (8)

          這樣,可估算出(4)式中局部余弦基原子的參數(shù)。

          文獻[4]中提出,選出最匹配信號的基,對每一個基求出其WVD分布,信號的WVD分布就表示其最優(yōu)基的WVD的線性組合,這樣就消除了交叉項的影響。由此得到的WVD分布:

          (9)

          是局部余弦基字典中被選中的最優(yōu)基的WVD分布。將等式左邊第二項交叉項組合去除,這樣在時頻面上就得到了干凈的時頻表示:

          (10)

          在語音信號稀疏分解過程中,每步分解都要從過完備原子庫中選出與待分解語音信號或語音信號分解殘余最為匹配的原子,原子是由參數(shù)公式(4)決定的。因此語音信號稀疏分解所得原子的參數(shù)可作為語音信號的特征。此外,根據公式(10),使用匹配追蹤法選取的最佳基的WVD分布,含有該語音信號重要且獨特的信息,也可作為該語音信號的特征。

          4.基于HMM的語音識別算法

          特征提取基于語音幀,即將語音信號分為有重疊的若干幀,對每一幀提取一次語音特片。由于語音特征的短時平穩(wěn)性,幀長一般選取20ms左右。在分幀時,前一幀和后一幀的一部分是重疊的,用來體現(xiàn)相鄰兩幀數(shù)據之間的相關性,通常幀移為幀長1/2。本文為了方便做MP,采用的幀長為512點(32ms),幀移為256點(16ms)。特征的選擇需要綜合考慮存儲量的限制和識別性能的要求。通常的語音識別系統(tǒng)使用24維特征矢量,包括12維MFCC和12維一階差分MFCC。本文提出的多參數(shù)語音識別算法,在此基礎上增加了原子參數(shù)公式(4)和最佳基的WVD分布公式(10),這兩維特征,構成26維特征矢量。對MFCC和語音信號能量的WVD分布分別使用了倒譜均值減CMS(Ceps-trum Mean Subtraction)和能量歸一化ENM(Energy Normalization)的處理方法提高特征的穩(wěn)健性[5]。

          在HMM模型中,首先定義了一系列有限的狀態(tài)S1,…,SN,系統(tǒng)在每一個離散時刻n只能處在這些狀態(tài)當中的某一個Xn。在時間起點n=0時刻,系統(tǒng)依初始概率矢量π處在某一個狀態(tài)中,即:

          (11)

          以后的每一個時刻n,系統(tǒng)所處的狀態(tài)Xn僅與前一時刻系統(tǒng)的狀態(tài)有關,并且依轉移概率矩陣A跳轉,即:

          (12)

          且滿足:

          (13)

          系統(tǒng)在任何時刻n所處的狀態(tài)Xn隱藏在系統(tǒng)內部,并不為外界所見,外界只能得到系統(tǒng)在該狀態(tài)下提供的一個Rq空間隨機觀察矢量On。On的分布P稱為輸出概率矩陣,只取決于On所處狀態(tài):

          (14)

          因為該系統(tǒng)的狀態(tài)不為外界所見,因此稱之為“隱含馬爾科夫模型”,簡稱HMM。在識別中使用的隨機觀察矢量就是從信號中提取的特征矢量。按照隨機矢量Qn的概率分布形時,其概率密度函數(shù)一般使用混合高斯分布擬合。

          (15)

          其中,M為使用的混合高斯分布的階數(shù);Cm為各階高斯分布的加權系數(shù)。此時的HMM模型為連續(xù)HMM模型(Continuous density HMM),簡稱CHMM模型[6]。在本識別系統(tǒng)中,采用孤立詞模型,每個詞條7個狀態(tài),同時包括首尾各一個靜音狀態(tài);每個狀態(tài)使用3階混合高斯分布擬合。

          5.仿真實驗

          5.1 提取最佳基的WVD分布特征矢量

          構建局部余弦基字典,使用MP算法選取語音信號“A”的最佳基。如圖2所示。得到的時頻圖既保留了余弦基原子高時頻聚集性的優(yōu)點,又削弱了WVD作為二次型時頻表示所固有的交叉項的影響,得到了干凈的時頻面。其結果更精確的反映出語音信號在頻率、音強方面的特征,具有良好的時頻聚集性。

          圖2 “A“信號的WVD分布

          Figure2 WVD of“A”

          5.2 孤立詞識別

          在語音識別實驗中,采用信號長度為1024的200個實際語音信號樣本,其中100個用于訓練,100個用于測試。該實驗用以識別出語音信號”A”。實驗利用WaveCN2.0錄音系統(tǒng)進行樣本采集,采樣率為8kHz。得到語音信號的有效部分后,提取樣本信號的MFCC參數(shù)作為語音信號的特征參數(shù)之一。Mel濾波器的階數(shù)為24,fft變換的長度為256,采樣頻率為8kHz。MFCC的相關波形見圖3。

          圖3 “A“信號的MFCC波形

          Figure3 MFCC Waveform of“A”

          然后利用MP算法將樣本信號分解為300個原子,將所得原子的參數(shù)和最佳基的WVD分布,作為該語音信號的特征參數(shù)之二。見圖2。通過HMM進行識別。

          在實驗中,設語音”A”類值為1,其他的語音類值為-1。HMM模型的狀態(tài)數(shù)為7,高斯混合數(shù)為3。由第4節(jié)HMM訓練的定義可知,重估過程中的輸出概率是隨著重估次數(shù)的遞增而增加的,圖4列出了“A”模型訓練期間重估次數(shù)與總和輸出概率的log值之間的關系。由圖可以看出,“A”模型重估20次算法收斂,并且,輸出概率與重估次數(shù)成正比趨勢。

          圖4 重估次數(shù)與總和輸出概率

          Figure4 Iterations of EM and output like lihood

          對語音進行上述HMM訓練之后,將其模型參數(shù)存貯,獲得了識別的HMM模型庫。在識別階段,對100個測試用數(shù)據進行語音識別,以檢驗本文系統(tǒng)的識別效果。如表1所示識別精度為89%,平均識別時間約為1.313秒,實驗結果表明,系統(tǒng)識別率和運算速度都比較理想。

          表1 識別結果

          語音類型 識別次數(shù) 識別結果 識別精度

          A 其它

          A 100 92 8 92%

          增加了局部余弦基原子的參數(shù)和最佳基的WVD分布作為特征參數(shù),較單純的使用MFCC作為特征參數(shù)進行HMM模型訓練,識別率有一定提高,見表2。

          表2 結果比較

          特征參數(shù) 識別率%

          MFCC、和特征參數(shù) 92

          MFCC 89.5

          6.結語

          本文在傳統(tǒng)基于HMM模型的語音識別基礎上,通過匹配追蹤算法,提取出最佳基的原子參數(shù)和WVD分布。二者與MFCC一起,作為本文提出的多參數(shù)語音識別算法的特征向量。然后選擇了大量孤立詞樣本進行仿真實驗,針對非特定人孤立詞進行語音識別。結果表明,基于HMM和匹配追蹤的多參數(shù)語音識別算法,可提高語音識別的速度和準確度,有一定的實用性。但是,由于算法的復雜性增加,運算量相應增大,簡化算法運算量仍是需要深入研究的課題。

          參考文獻

          [1]何方偉,青木由直.DP動態(tài)匹配算法實現(xiàn)語音的實時識別[J].數(shù)據采集與處理,vol.4,no.1,Mar,1989.

          [2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.

          [3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.