總金額: 會員:NT$ 0 非會員:NT$ 0 
(此金額尚未加上運費)
電子電信技術 電子電信技術 通信與無線電學應用
 
 
 
 
Kaldi語音識別實戰
 作  者: 陳果果/督家宇/那興宇/張俊博
 出版單位: 電子工業
 出版日期: 2020.04
 進貨日期: 2020/5/13
 ISBN: 9787121378744
 開  本: 16 開    
 定  價: 668
 售  價: 534
  會 員 價: 490
推到Facebook 推到Plurk 推到Twitter
前往新書區 書籍介紹 購物流程  
 
編輯推薦:

Kaldi的出現,被業內公認為極大地降低了語音識別技術學習與使用的門檻,成為廣受歡迎的工具。
本書由Kaldi的知名貢獻者和社區技術骨乾撰寫,結合實際場景,系統全面地闡述了Kaldi的基礎理論和應用知識,非常適合入門,是珍貴的學習資料。本書特色:
1 以Kaldi腳本實例為線索,結合大量示例,降低學習門檻
2 詳述各類實踐技巧,舉一反三
3 實際場景問題分析與解決方案
4兼述語音技術其他關鍵應用:語音喚醒(關鍵詞識別)、說話人識別、語種識別


內容簡介:

Kaldi是目前語音識別領域,廣受歡迎並流行的開源工具包。Kaldi設計之初對通用性,可拓展性等一系列源代碼層次的考量,大大降低了Kaldi作為語音識別工具包的門檻, 同時擁有非常完整的語音識別系統訓練腳本。本書通過對Kaldi已有訓練腳本的梳理和引導,幫助讀者快速搭建可用的語音識別系統。


作者簡介:

陳果果清華大學本科學位,約翰霍普金斯大學博士學位,主要研究方向是語音識別及關鍵詞檢索,師從語音識別開源工具Kaldi主要開發者Daniel Povey,以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。博士期間為Google開發了Google的喚醒詞Okay Google的原型,現在已經用到數以億計的安卓設備及Google智能語音交互設備上。博士期間同時參與開發語音識別開源工具Kaldi,以及神經網絡開源工具CNTK。博士畢業以後聯合創辦KITT.AI,專注於語音識別及自然語言處理,公司於2017年被百度收購,目前擔任百度智能生活事業群組(SLG)主任架構師。都家宇本科畢業於大連理工大學,後於澳大利亞新南威爾士大學電子信息工程學院學習,取得信號處理專業碩士學位。研究生期間在導師 Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。畢業後先後任職於清華大學語音技術實驗室、百度語音技術部,以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、語音喚醒等方面的研發工作。參與過與 Kaldi 相關的工作有:Kaldi nnet1神經網絡框架中 lstm 作者;發起並推動全球最大規模的中文開源數據集語音項目AISHELL-1、AISHELL-2,已服務於清華大學、北京大學、南洋理工大學、哥倫比亞大學等近200所國內外高校的科研項目。那興宇本科和博士均畢業於北京理工大學,主要研究方向是語音識別和語音合成。先後任職於中國科學院聲學研究所和阿里巴巴機器人,從事語音識別模型訓練系統和語音交互系統的開發。目前就職於微軟,擔任資深應用科學家,從事語音識別算法和技術架構的開發及業務支持工作。2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發工作,並維護其中若干示例及OpenSLR的中文語音識別模型。張俊博博士畢業於中國科學院聲學研究所,師從顏永紅研究員。在小米公司從零起主導構建了整套語音算法研究框架,包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、用於語音應用的神經網絡部署,均達到了當時的先進水平,併發表頂會論文若干篇,為後續的語音研發工作建立了基礎。近期上線了用於外語學習的發音質量評測引擎,並給Kaldi貢獻了發音良好度評分的代碼。


圖書目錄:

1 語音識別技術基礎1
1.1 語音識別極簡史1
1.1.1 語音識別早期探索2
1.1.2 概率模型一統江湖2
1.1.3 神經網絡異軍突起3
1.1.4 商業應用推波助瀾4
1.2 語音識別系統架構6
1.2.1 經典方法的直觀理解6
1.2.2 概率模型7
1.2.3 端到端語音識別10
1.3 一些其他細節11
1.3.1 語音信號處理11
1.3.2 發音和語言學12
1.3.3 語音識別系統的評價13
2 Kaldi概要介紹15
2.1 發展歷史15
2.1.1 名字的由來15
2.1.2 約翰霍普金斯大學夏季研討會16
2.1.3 Kaldi發展簡史17
2.2 設計思想18
2.2.1 初衷18
2.2.2 開源19
2.2.3 訓練腳本19
2.3 安裝20
2.3.1 下載Kaldi代碼20
2.3.2 安裝CUDA20
2.3.3 安裝編譯依賴庫21
2.3.4 安裝第三方工具21
2.3.5 選擇其他的矩陣庫23
2.3.6 編譯Kaldi代碼23
2.3.7 配置並行環境25
2.4 一個簡單的示例26
2.4.1 運行run.sh26
2.4.2 腳本解析28
2.5 示例介紹34
2.5.1 數據示例34
2.5.2 競賽示例38
2.5.3 其他示例40
2.5.4 示例結構41
3 數據整理44
3.1 數據分集44
3.1.1 Librispeech示例的數據處理過程45
3.1.2 數據下載和解壓46
3.2 數據預處理49
3.2.1 環境檢查51
3.2.2 生成表單文件52
3.2.3 數據檢查55
3.3 輸入和輸出機制56
3.3.1 列表表單57
3.3.2 存檔表單60
3.3.3 讀寫聲明符60
3.3.4 表單屬性64
3.4 常用數據表單與處理腳本69
3.4.1 列表類數據表單70
3.4.2 存檔類數據表單72
3.4.3 數據文件夾處理腳本77
3.4.4 表單索引的一致性78
3.5 語言模型相關文件79
3.5.1 發音詞典與音素集80
3.5.2 語言文件夾85
3.5.3 生成與使用語言文件夾92
4 經典聲學建模技術94
4.1 特徵提取95
4.1.1 用 Kaldi 提取聲學特徵95
4.1.2 特徵在 Kaldi 中的存儲99
4.1.3 特徵的使用104
4.1.4 常用特徵類型106
4.2 單音子模型的訓練107
4.2.1 聲學模型的基本概念108
4.2.2 將聲學模型用於語音識別112
4.2.3 模型初始化113
4.2.4 對齊115
4.2.5 Transition 模型118
4.2.6 GMM 模型的迭代124
4.3 三音子模型訓練128
4.3.1 單音子模型假設的問題128
4.3.2 上下文相關的聲學模型129
4.3.3 三音子的聚類裁剪130
4.3.4 Kaldi中的三音子模型訓練流程130
4.4 特徵變換技術139
4.4.1 無監督特徵變換139
4.4.2 有監督特徵變換141
4.5 區分性訓練143
4.5.1 聲學模型訓練流程的變遷143
4.5.2 區分性目標函數144
4.5.3 分子、分母145
4.5.4 區分性訓練在實踐中的應用146
5 構圖和解碼147
5.1 N元文法語言模型148
5.2 加權有限狀態轉錄機151
5.2.1 概述151
5.2.2 OpenFst153
5.3 用WFST表示語言模型156
5.4 狀態圖的構建158
5.4.1 用 WFST 表示發音詞典158
5.4.2 WFST 的複合運算163
5.4.3 詞圖的按發音展開165
5.4.4 LG 圖對上下文展開166
5.4.5 用 WFST 表示 HMM 拓撲結構169
5.5 圖的結構優化170
5.5.1 確定化170
5.5.2 最小化173
5.5.3 圖的stochastic性質174
5.6 最終狀態圖的生成174
5.7 基於令牌傳遞的維特比搜索176
5.8 SimpleDecoder源碼分析178
5.9 Kaldi 解碼器家族187
5.10 帶詞網格生成的解碼189
5.11 用語言模型重打分提升識別率192

6 深度學習聲學建模技術195
6.1 基於神經網絡的聲學模型195
6.1.1 神經網絡基礎196
6.1.2 激活函數198
6.1.3 參數更新199
6.2 神經網絡在Kaldi中的實現200
6.2.1 nnet1(nnet)200
6.2.2 nnet2203
6.2.3 nnet3208
6.3 神經網絡模型訓練214
6.3.1 輸入特徵的處理214
6.3.2 神經網絡的初始化215
6.3.3 訓練樣本的分批與隨機化217
6.3.4 學習率的調整222
6.3.5 並行訓練224
6.3.6 數據擴充227
6.4 神經網絡的區分性訓練228
6.4.1 區分性訓練的基本思想228
6.4.2 區分性訓練的目標函數229
6.4.3 區分性訓練的實用技巧231
6.4.4 Kaldi神經網絡區分性訓練示例232
6.4.5 chain模型234
6.5 與其他深度學習框架的結合242
6.5.1 聲學模型242
6.5.2 語言模型243
6.5.3 端到端語音識別243
7 關鍵詞搜索與語音喚醒245
7.1 關鍵詞搜索技術介紹245
7.1.1 關鍵詞搜索技術的主流方法245
7.1.2 關鍵詞搜索技術的主流應用247
7.2 語音檢索247
7.2.1 方法描述248
7.2.2 一個簡單的語音檢索系統248
7.2.3 集外詞處理之詞表擴展254
7.2.4 集外詞處理之關鍵詞擴展255
7.2.5 集外詞處理之音素/音節系統256
7.2.6 一個實用的語音檢索系統258
7.3 語音喚醒263
7.3.1 語音喚醒經典框架264
7.3.2 語音喚醒進階優化266
7.3.3 語音喚醒的Kaldi實現思路267
8 說話人識別269
8.1 概述269
8.2 基於i-vector和PLDA的說話人識別技術271
8.2.1 整體流程271
8.2.2 i-vector 的提取272
8.2.3 基於餘弦距離對 i-vector 分類274
8.2.4 基於 PLDA 對 i-vector 分類276
8.3 基於深度學習的說話人識別技術280
8.3.1 概述280
8.3.2 x-vector280
8.3.3 基於 x-vector 的說話人識別示例283
8.4 語種識別288
9 語音識別應用實踐292
9.1 語音識別基本應用292
9.1.1 離線語音識別與實時在線語音識別292
9.1.2 語音識別應用模塊293
9.1.3 小結296
9.2 話音檢測模塊296
9.2.1 VAD算法296
9.2.2 離線VAD297
9.2.3 流式在線VAD298
9.3 模型的適應299
9.3.1 聲學模型的適應299
9.3.2 詞表的擴展300
9.3.3 語言模型的適應301
9.3.4 小結301
9.4 解碼器的選擇及擴展302
9.4.1 Kaldi中的解碼器302
9.4.2 實際應用中的常見問題及擴展303
9.4.3 小結305
附錄A 術語列表306
附錄B 常見問題解答308
參考文獻313


章節試讀:

推薦序1
最近這段時間我的生活有了一些戲劇性的變化,大家可以從一些新聞(比如《紐約時報》)中看到具體的報道。因為這些變化,我目前暫時在做一些咨詢的工作,也因此有機會到世界各處巡遊。比如此時此刻,在為這本書寫序的時候,我正在土耳其伊斯坦布爾的一家小咖啡館裡。寫序其實並不是一個我所擅長的事情,相對來說,我更喜歡寫程序,但是我會盡我所能為這本書寫序。
計算機軟件很少有處在穩定狀態的,對於Kaldi來說尤其如此。用鯊魚的例子來做類比,鯊魚是從來不休息的,必須通過持續的運動才能生存;Kaldi也是這樣,這些年來一直都在一刻不停地、持續地發展壯大。當然,發展是一把雙刃劍,這麼高速的發展給Kaldi帶來了很多發展紅利,也不可避免地帶來了問題。事實上,在當前版本的Kaldi開發中,我們做出了不少正確的決定,但是回過去看,也有不少不盡如人意的設計。因此,我目前正在為Kaldi規劃一些比平常大得多的改動,比如更好地支持當前主流的機器學習框架,例如PyTorch。當然,Kaldi大部分的特性都會保持不變,因此我相信這本書的內容會一直有很大的參考價值。
Kaldi最寶貴的資產其實一直都是Kaldi的開源社區。我相信這本書的出版能夠極大地推動Kaldi開源社區的持續發展。對我個人來說,無論將來在哪裡工作,我也都會繼續全身心地投入到Kaldi項目中。
Daniel Povey 2019年9月27日
作者 譯 2019年9月27日

推薦序2
在最近的十年裡,語音識別、語音合成和語音信號處理都有了長足的發展。這些發展一方面歸功於研究人員在語音處理領域引入了一系列新的研究成果,比如序列上的區分度訓練和基於深度學習的識別和合成框架,另一方面得益於用戶在移動互聯網時代對語音技術的應用需求和與之對應的海量數據和強大計算力,這些因素互相促進,極大地推動了語音技術的發展,並使得語音技術的性能指標在幾年前就超過了用戶的使用門檻,催生了大量的實際應用。
在技術和應用的發展過程中,工具一直占有著重要的地位,比如,TensorFlow、PyTorch、CNTK、MXNet等深度學習工具的出現極大地推動了深度學習的發展。而語音系統鏈路複雜,涉及的技術模塊多樣,所需的領域知識點繁多,對工程優化的要求高,好的工具就顯得尤為重要。早期的語音識別的發展大大得益於HTK和Sphinx 工具集,而在最近的十年裡,Kaldi工具箱對於語音技術的普及和研發起到了舉足輕重的作用。
Kaldi起源於2009年的約翰霍普金斯大學夏季研討會,當時我在微軟研究院語音與對話研究組的同事Dan Povey博士提出了Subspace Gaussian Mixture Model (SGMM),並在研討會上組織研究了這個模型。作為這個研究的一個副產品,他們開始整理和開發一個新的語音技術工具箱Kaldi,並採用了開源的開發模式。經過十年的發展,Kaldi已經成為深度學習時代主流的語音技術工具箱,集成了大量的最新進展和最優腳本,極大地降低了語音技術的研究和應用門檻。
不過,Kaldi是一個持續發展中的開源項目,它的文檔大大落後於代碼。本書作者們基於自己多年的一線語音研發和 Kaldi 使用經驗,深入淺出地介紹了語音識別各個模塊的原理及Kaldi中各種實踐技巧的來龍去脈和使用方法,極大地彌補了 Kaldi文檔方面的缺陷,降低了Kaldi的學習和使用門檻,有助於Kaldi的進一步推廣和開發。

俞棟 IEEE Fellow,騰訊人工智能實驗室副主任
2019年9月28日於西雅圖
顏永紅 中國科學院語言聲學與內容理解重點實驗室主任
Kaldi 開源軟件對推動語音技術研究和產品落地做出了不可磨滅的貢獻,本書作者是工作在語音研究和產業前沿的青年才俊,他們以第一手經驗詳細講解了如何運用該軟件構建實際系統,這對初學者迅速掌握相關知識和技能是非常有益的。

俞凱 上海交通大學智能語音技術實驗室主任,思必馳聯合創始人、首席科學家
我和Dan Povey博士十幾年前在劍橋大學共事時,使用的是早期最著名的語音識別開源軟件之一:HTK。雖然後來Kaldi因其靈活的設計、開放的協議和豐富的功能而如日中天,卻一直在系統教程方面遠遠落後於HTK。本書從理論和實踐的角度對Kaldi進行了完整呈現,不僅有其實用價值,也為“知其所以然”給出了很好的注解,相信必然會對Kaldi的傳播和語音識別技術的發展起到積極的促進作用。

崔寶秋 小米集團副總裁、集團技術委員會主席
Kaldi是開源語音技術的一個典範,是高校同學們入門語音的啟迪工具,也是人們快速提升語音技術的捷徑。它消除了大家因為長期沉浸在語音教科書和論文裡而產生的“手癢”,給人們帶來快速上手實踐、快速感受語音數據之美的快樂。本書作者們都有豐富的工業界(包括小米)實戰經驗和深厚的學術積累,他們把這些經驗和積累無私地貢獻出來,也真正體現了開源的共享精神。擁抱開源是小米的工程文化,衷心希望Kaldi及其社區在Daniel Povey博士的領導下不斷茁壯成長、引領語音技術的發展。

張錦懋 美團首席科學家、基礎研發平台負責人
Kaldi的誕生使得語音識別領域的研究和創新成本都顯著降低,讓整個行業都獲益匪淺。這本書的幾位作者非常全面地介紹了Kaldi的功能,包括數據處理、聲學模型、解碼器等相關的工具,同時對相關理論也進行了詳細的闡述,讓讀者不僅學會使用Kaldi,而且能夠理解為什麼這麼使用。

雷欣 出門問問首席技術官
Kaldi相比於經典的HTK工具包進行了巨大的優化,譬如C 的採用、基於WFST的靜態解碼器、達到state-of-the-art性能的recipe腳本等。這些優勢使得Kaldi開源庫得到迅速的發展,極大地降低了語音技術的門檻,使得像出門問問這樣的語音創業公司能在短時間內開發出一流的語音技術產品。相比於經典的HTK Book,Kaldi在文檔方面則顯得落後很多。本書的作者們都是Kaldi社區的活躍開發者,對Kaldi及語音技術有著深刻的理解,他們的努力使得中國的語音技術愛好者們有了一本入門和提高的參考書,必將進一步推動語音技術的普及。

鄒月嫻 北京大學教授、博士生導師,深圳市人工智能學會專家委主任
我在北京大學深圳研究生院開展教學和科研工作十四個整年頭,其間為計算機應用技術專業的學生主講“機器學習與模式識別”課程,帶領一群優秀的研究生開展機器聽覺技術研究。我們的教學和研究得益於眾多的開源項目,深切體會到Kaldi作為主流的語音識別開源工具對同學們的幫助。Kaldi秉承其開源社區的傳統特性,支持主流的機器學習框架和算法,受到眾多業界和學界開發者的支持。我相信本書的作者們正是秉承這樣的精神,以實際行動支持Kaldi開源社區。這本書不僅介紹了語音技術的發展簡史、Kaldi的發展歷史,也涵蓋了最新的基於深度學習的語音技術主流框架和語音識別應用實踐案例,所呈現的內容和提供的實戰技巧貼近產業需求,該書的出版將有益於學子們更加快速地了解主流的語音技術並迅速開展編程實踐,推動語音技術進步和應用的發展。

李嵐 中軟國際教育科技集團人工智能研究院執行院長
人工智能技術在近年被確立為國家戰略後,高校和企業間深度合作,在人工智能的人才培養上形成了一致看法,即實踐是學校和學生的一致需求。從產業界的實際發展來看,隨著人工智能技術應用領域的擴展,“聽”這一感知領域,已經是迫切需要得以提升和發展的。企業專家,特別是實際應用領域的專家聯合推動的行業數據和技術開源,為這個領域的人才培養做出了貢獻。而如何讓更多的老師和學生們了解語音領域的發展現狀及學習路徑,需要和本書的作者們一樣,分享自己的理解和系統梳理。我們也將在後續工作中,將本書作為我們的教材之一,希望能推動語音領域人才的培養。

前言
在過去的幾年裡,語音相關產業發展迅速,產品形態五花八門。在消費電子領域,隨著語音輸入、語音搜索、智能助手等產品的出現,一場人人交互和人機交互的變革正在我們身邊發生。語音產業的上一次爆發出現在20世紀80年代至90年代:隱馬爾可夫模型的應用,使大規模連續語音識別成為可能——這意味著用戶在人機語音交互時,得以擺脫字正腔圓、一詞一頓的刻板方式。在過去的十年間,隨著深度學習技術的強勢崛起和以GPU為代表的算力硬件的爆發,語音類產品(包括但不限於語音轉文字、說話人識別、語種識別等)的使用體驗又一次得到了顯著的提升。更重要的是,深度學習技術帶來的使用體驗的提升,使語音技術更加接近商用,促成了語音產品和語音數據之間的良性循環:相比傳統模型,基於深度神經網絡的語音識別系統總是能更有效地利用持續增長的數據量,提升識別性能,而識別性能的提升,又會激發更多的產業應用,打通海量語音數據的獲取渠道,進一步優化模型。
隨著語音算法的逐代升級,語音技術鏈路的相關研發工具也逐步成型和完善,其中的代表是 HTK 和 Sphinx 工具集,這兩個工具集都能夠完成從模型的訓練到產品原型的搭建等一系列工作,並催生了一批以語音識別為核心技術的公司。在20世紀90年代末,這兩個工具集先後開源,再次降低了語音識別和相關領域的研發門檻與成本。
在最近的十年裡,新一代的開源項目Kaldi逐步取代了 HTK 和 Sphinx 的統治地位,成為了流行的開源語音工具箱。Kaldi 誕生之初就汲取了其他語音項目的經驗,並以語音識別為核心進行全局的設計:包含自成一派的文件I/O及存儲、數據處理流水線、模型訓練流水線,以及採用高效且優雅的加權有限狀態機(WFST)作為語音識別解碼的統一框架,並提供了離線/在線識別原型等。
Kaldi 項目發布不久,就吸引了國內外的大量用戶,形成了一個活躍的開源社區。在社區中,有國際頂尖的語音科學家、探索新邊界的博士研究生,也有初探語音識別的初學者、其他技術領域想使用語音技術的工程師,當然還有經歷了HTK時代的老用戶們。截至本書完稿時,Kaldi 在

 
  步驟一.
依據網路上的圖書,挑選你所需要的書籍,根據以下步驟進行訂購
選擇產品及數量 結 帳 輸入基本資料 取貨與付款方式
┌───────────────────────────────────────────────────┘
資料確定 確認結帳 訂單編號    

步驟二.
完成付款的程序後,若採用貨到付款等宅配方式,3~7天內 ( 例假日將延期一至兩天 ) 您即可收到圖書。若至分店門市取貨,一週內聯絡取書。

步驟三.
完成購書程序者,可利用 訂單查詢 得知訂單進度。

注意事項.
● 付款方式若為網路刷卡必須等" 2 ~ 3 個工作天"確認款項已收到,才會出貨.如有更改書籍數量請記得按更新購物車,謝謝。

● 大陸出版品封面老舊、磨痕、凹痕等均屬常態,除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。

● 至2018年起,因中國大陸環保政策,部分書籍配件以QR CODE取代光盤音頻mp3或dvd,已無提供實體光盤。如需使用學習配件,請掃描QR CODE 連結至當地網站註冊並通過驗證程序,方可下載使用。造成不便,敬請見諒。

● 我們將保留所有商品出貨權利,如遇缺書情形,訂單未達免運門檻運費需自行負擔。

預訂海外庫存.
商品到貨時間須4週,訂單書籍備齊後方能出貨,如果您有急用書籍,建議與【預訂海外庫存】商品分開訂購。