總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電腦技術 自動化基礎理論
 
 
 
 
新一代人工智能與語音識別
 作  者: 馬延周
 出版單位: 清華大學
 出版日期: 2019.08
 進貨日期: 2019/9/23
 ISBN: 9787302523840
 開  本: 16 開    
 定  價: 334
 售  價: 267
  會 員 價: 245

目前無補書計畫

推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

闡述了語音辨識的基本類型,對近60年來國內外俄語連續語音辨識研究現狀進行評析;建立聲學模型和語言模型是俄語連續語音辨識研究需要解決的關鍵問題。


內容簡介:

本書系統介紹基於新聞語料的俄語連續語音辨識方法。全書共分以下幾個部分:基於Kaldi設計實現俄語連續語音辨識原型系統,使之具備線上識別和離線識別功能,以驗證聲學模型和語言模型優化演算法的有效性,進而為面向特定領域的俄語語音辨識實用系統研發提供理論方法、實驗資料和關鍵技術支撐。為了實現上述目標,需要進行如下環環緊扣的操作步驟:俄語語音語料的採集加工處理、俄語文本語料的採集清洗過濾、俄語發音詞典的自動預測生成、聲學模型建模基本單元(音素集)的確定、聲學模型和語言模型的優化等。


作者簡介:

馬延周,男,博士研究生,主要研究方向為語音資訊智慧處理,主要承擔電腦類、語言資訊智慧處理類本碩博課程的主講與輔導任務,主持或參與的g家級、省部級、院校級各類項目多項,主編或參編的教材多部,科研成果主要集中在多語種語言資訊處理及多語種語料的採集處理等領域。


圖書目錄:

第0章緒論1

0.1研究依據1

0.2研究物件與研究目標2

0.3研究方法3

0.4研究意義3

0.5本書的創新點4

0.6語料來源4

0.7本書的結構5

第1章語音辨識技術研究綜述7

1.1語音辨識的定義與分類7

1.1.1語音辨識的定義7

1.1.2語音辨識的分類8

1.2語音辨識技術的研究進展9

1.2.1語音辨識技術的發展概況9

1.2.2國外俄語語音辨識技術的研究進展10

1.2.3中國俄語語音辨識技術的研究進展13

1.3語音辨識系統的基本原理14

1.3.1特徵提取15

1.3.2聲學模型16

1.3.3語言模型17

1.3.4解碼18

1.4語音辨識技術研究所關注的關鍵問題19

本章小結21?4?新一代人工智慧與語音辨識?2?目錄?4?第2章語音資料的加工處理22

2.1問題描述22

2.2眾包的定義及內涵23

2.2.1眾包的基本概念23

2.2.2眾包的基本流程24

2.2.3眾包的關鍵問題24

2.3解決方案25

2.3.1品質控制25

2.3.2語音標注平臺的架構27

2.3.3標注平臺的設計與實現28

2.4語音標注31

2.4.1語音有效性判斷31

2.4.2語音轉寫規範32

2.4.3語音標注規範32

2.5實驗設計與結果分析33

2.5.1實驗設計33

2.5.2結果分析34

2.5.3結論36

本章小結36

第3章俄語聲學模型的建立37

3.1連續語音辨識37

3.1.1連續語音辨識的整體模型38

3.1.2聲學模型訓練的HMMQGMM方法40

3.1.3聲學模型訓練中的HMMQDNN方法48

3.2俄語語音學概述52

3.2.1俄語的使用及分佈情況52

3.2.2俄語語音的基本特點55

3.2.3俄語音素的發音特徵56

3.2.4俄語母音音素的隨位變化58

3.2.5俄語輔音音素的隨位變化60

3.3俄語聲學單元的選擇61

3.3.1俄語SAMPA音素集61

3.3.2俄語音系表64

3.4實驗設計與結果分析64

3.4.1實驗設計65

3.4.2結果分析66

本章小結67

第4章俄語語言模型的建立68

4.1文本語料的準備與清洗68

4.1.1資料來源的篩選69

4.1.2資料爬取71

4.1.3數據的去重與清洗71

4.1.4格式化處理74

4.2語言模型簡述75

4.2.1語言模型的平滑技術77

4.2.2語言模型的剪枝演算法81

4.3語言模型的訓練流程84

4.3.1語言模型的訓練實現84

4.3.2詞典的選擇85

4.3.3LM的剪枝與優化87

4.4實驗結果分析89

4.4.1詞典規模測試89

4.4.2語料規模測試89

4.4.3語言模型剪枝測試90

本章小結91

第5章基於Kaldi的俄語語音辨識原型系統92

5.1系統設計的目標與原則92

5.1.1系統設計的目標92

5.1.2系統設計的原則92

5.2系統的開發環境與整體架構93

5.2.1系統的開發環境93

5.2.2系統的整體架構93

5.3Kaldi環境的搭建94

5.3.1Kaldi及實驗環境94

5.3.2Kaldi訓練伺服器的搭建96

5.3.3AM訓練資料及參數設置98

5.3.4LM訓練資料及參數設置107

5.4Kaldi訓練優化111

5.4.1Kaldi聲學建模111

5.4.2GPU加速113

5.5語音辨識原型系統的設計114

5.5.1系統GUI的設計114

5.5.2線上識別功能114

5.5.3離線識別功能117

5.6實驗設計與結果分析119

5.6.1實驗設計119

5.6.2實驗結果119

5.6.3結果分析120

本章小結121

第6章總結與展望122

6.1本書的主要成果122

6.2未來的研究計畫123

附錄A英漢術語對照表124

附錄B其他相關資料126

B.1俄語發音詞典(76277個詞形)示例126

B.2俄語解碼詞表(189971個詞形)示例127

B.3俄語字元Unicode編碼對照表128

B.4俄語語音格式化程式(轉換為16KB、16b)128

B.5俄語文本轉Unicode編碼程式129

B.6從https: //twitter.com網站上下載的部分網頁檔

(json格式)示例131

B.7從http: //www.interfax.ru網站上下載的部分網頁

檔(json格式)示例131

B.8俄語拉丁字母轉寫表132

參考文獻134


章節試讀:

第5章

基於Kaldi的俄語語音辨識原型系統

接正文本章主要根據前文的研究成果,基於Kaldi平臺設計並實現一個俄語連續語音辨識原型系統,屬於理論方法探討向工程應用的轉化研究,涉及各類知識的綜合運用,是本書的實踐成果展示部分。主要內容為首先闡述系統設計的目標與原則,其次介紹設計與實現連續語音辨識系統、優化聲學模型和語言模型建模的方法及過程,最後對實驗的結果進行詳細分析,驗證系統的有效性。

5.1系統設計的目標與原則?*4/5?5.1.1系統設計的目標基於標注新聞語料的連續俄語語音辨識原型系統設計建立在前文研究的基礎之上,旨在對前述演算法及模型優化方法進行編碼與實現,主要目標包括:

? 實現俄語語言模型的建模及優化,將Katz、KN等演算法體現在訓練過程中,用來測試語言模型的有效性,並檢驗演算法的可靠性;

? 基於Kaldi進行二次開發,設計可複用的代碼模組,為其他語種的語音辨識研究提供示範應用和程式保障;

? 設計一個開放平臺,為成果轉化提供一種可操作的技術方案。

5.1.2系統設計的原則

本書設計的基於Kaldi的俄語連續語音辨識原型系統主要遵循如下原則。

? 代碼複用性。系統的主介面的核心代碼可以複用,以減少系統的工作量,只需要更改部分參數設置即可應用於不同語種的識別應用。

? 介面易用性。人機交互介面往往決定了系統的易懂度和易用度,對使用者來說,主介面的易用性體現在用戶的首次使用感受,介面能夠反映系統的主體功能,能夠使用戶在最短時間內掌握其使用方法。

? 平臺相容性。當前絕大多數使用者對Windows系統介面比較容易接受,而對Linux系統介面的掌握尚有一定難度,因此在系統開發的過程中應考慮平臺的相容性,以達到用戶最容易接受的程度。

以上原則的主要目的是降低系統開發的成本及難度,增強用戶的使用體驗。

?4?新一代人工智慧與語音辨識?2?第5章基於Kaldi的俄語語音辨識原型系統?4?5.2系統的開發環境與整體架構?*4/5?5.2.1系統的開發環境基於Kaldi平臺的二次開發;

伺服器端ASR運行環境: Ubuntu 14.0;

用戶端的作業系統: Windows 7;

軟體發展環境: Microsoft Visual Studio 2010;

開發語言: C#、.NET Framework 4.0。

5.2.2系統的整體架構

基於Kaldi的俄語語音辨識原型系統的整體架構如圖5Q1所示。

圖5Q1俄語語音辨識原型系統Gstreamer用於搭建ASR伺服器,供使用者遠端存取、傳入語音檔、返回該語音檔的識別結果,Gstreamer ASR的架構如圖5Q2所示。

圖5Q2Gstreamer ASR的架構

5.3Kaldi環境的搭建?*4/5?5.3.1Kaldi及實驗環境?*2?1. Kaldi簡介2009年,在約翰霍普金斯大學的夏季研討會上,Daniel Povey提出了一種新的子空間高斯混合模型(Subspace Gaussian Mixture Model,SGMM),同時發佈了Kaldi語音辨識系統。Kaldi是一個開源的語音辨識系統,主要通過C++實現,通過Github發佈更新,可以在通用的類UNIX環境和Windows環境下編譯。

Kaldi語音辨識系統主要基於帶權有限狀態轉換器對模型進行訓練和識別,同時使用OpenFst庫實現語音辨識功能。此外,聲學模型訓練有著大量的矩陣運算,Kaldi 封裝了部分CLAPACK、ATLAS和TNT 庫以滿足上述需求。Kaldi的特徵主要有: 與文本無關的LVCSR系統;基於FST的訓練和解碼;最大似然訓練;有VTLN、SAT的腳本;Kaldi支援標準的機器學習訓練模型和線性變換,如LDA HLDA,MLLT/STC;說話人自我調整,如fMLLR、MLLR。聲學模型方面支援GMM、SGMMs、DNN。其中,Kaldi的最大優點在於提供了多套DNN訓練方法,以方便用戶訓練自己的DNN聲學模型。

? 由Karel Vesely提供的訓練方法,稱為nnet1,該方法僅支援一個GPU或CPU進行訓練,訓練速度較慢。

? 由Daniel Povey提供的訓練方法,稱為nnet2,該方法同時支援多個GPU或者多個CPU,使用更加靈活,訓練速度也有較大幅度的提高。識別率與nnet1相比有輕微的下降,但與其出色的訓練效率相比,結果是可以接受的。該方法也是目前Kaldi最受歡迎的DNN訓練方法。

? 由Daniel Povey維護,持續更新中,稱為nnet3,同樣支持多個GPU或多個CPU,可訓練LSTM聲學模型,但還沒有提供線上解碼程式。

2. 實驗環境

本實驗環境的拓撲結構如圖5Q3所示。

圖5Q3實驗室拓撲結構

其中,1號伺服器硬體設定: 曙光雲圖W760QG20高性能伺服器,16核i7至強CPU,128GB記憶體,4塊600GB硬碟,2塊K40m 12GB的GPU,主要用來訓練俄語聲學模型。

2號伺服器硬體設定: 曙光I620QG20伺服器,16核i7至強CPU,64GB記憶體,4塊600GB硬碟,主要用來進行俄語語言模型的訓練。

3號伺服器硬體設定: 曙光I620QG20伺服器, 16核i7至強CPU,64GB記憶體,4塊600GB硬碟,主要用來提供ASR引擎,實現俄語線上和離線語音辨識。

用戶端通過GUI遠端登入伺服器實現語音辨識等功能。


圖片預覽:

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。