《解析深度學(xué)習(xí):語音識別實踐》是首部介紹語音識別中深度學(xué)習(xí)技術(shù)細節(jié)的專著。全書首先概要介紹了傳統(tǒng)語音識別理論和經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)核心算法。接著全面而深入地介紹了深度學(xué)習(xí)在語音識別中的應(yīng)用,包括“深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型”的訓(xùn)練和優(yōu)化,特征表示學(xué)習(xí)、模型融合、自適應(yīng),以及以循環(huán)神經(jīng)網(wǎng)絡(luò)為代表的若干先進深度學(xué)習(xí)技術(shù)。
《解析深度學(xué)習(xí):語音識別實踐》適合有一定機器學(xué)習(xí)或語音識別基礎(chǔ)的學(xué)生、研究者或從業(yè)者閱讀,所有的算法及技術(shù)細節(jié)都提供了詳盡的參考文獻,給出了深度學(xué)習(xí)在語音識別中應(yīng)用的全景。
AlphaGo與李世石的圍棋大戰(zhàn)激發(fā)了人們對人工智能是非的諸多爭論。人工智能背后的工作原理深度學(xué)習(xí)跳入大眾的視野。AlphaGo的大獲全勝一定程度展示了深度學(xué)習(xí)在應(yīng)用領(lǐng)域的成功,而語音識別正是深度學(xué)習(xí)取得顯著成功的應(yīng)用領(lǐng)域之一。
本書是首次以深度學(xué)習(xí)為主線介紹語音識別應(yīng)用的書籍,對讀者了解語音識別技術(shù)及其發(fā)展歷程有重要的參考價值。
本書作者俞棟、鄧力均是該領(lǐng)域的著名專家,他們是深度學(xué)習(xí)在應(yīng)用領(lǐng)域取得突破性進展的推動者與實踐者,他們在書中分享的研究成果一定程度上代表了本領(lǐng)域全新的研究進展;譯者俞凱、錢彥 旻也是本領(lǐng)域的資深專家,并有眾多實踐成果。 對于從事此領(lǐng)域研究的讀者來說,本書無疑有重要的參考價值。
作者及譯者簡介iv
譯者序vii
序ix
前言xi
術(shù)語縮寫xxiii
符號xxvii
1 簡介1
1.1 自動語音識別:更好的溝通之橋 1
1.1.1 人類之間的交流 2
1.1.2 人機交流 2
1.2 語音識別系統(tǒng)的基本結(jié)構(gòu) 4
1.3 全書結(jié)構(gòu) 6
1.3.1 第一部分:傳統(tǒng)聲學(xué)模型6
1.3.2 第二部分:深度神經(jīng)網(wǎng)絡(luò)6
1.3.3 第三部分:語音識別中的DNN-HMM 混合系統(tǒng)7
1.3.4 第四部分:深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí) 7
1.3.5 第五部分:高級的深度模型 7
第一部分傳統(tǒng)聲學(xué)模型9
2 混合高斯模型10
2.1 隨機變量10
2.2 高斯分布和混合高斯隨機變量11
2.3 參數(shù)估計13
2.4 采用混合高斯分布對語音特征建模 15
3 隱馬爾可夫模型及其變體17
3.1 介紹17
3.2 馬爾可夫鏈19
3.3 序列與模型 20
3.3.1 隱馬爾可夫模型的性質(zhì)21
3.3.2 隱馬爾可夫模型的仿真22
3.3.3 隱馬爾可夫模型似然度的計算22
3.3.4 計算似然度的高效算法24
3.3.5 前向與后向遞歸式的證明25
3.4 期望zui大化算法及其在學(xué)習(xí)HMM 參數(shù)中的應(yīng)用 26
3.4.1 期望zui大化算法介紹 26
3.4.2 使用EM 算法來學(xué)習(xí)HMM 參數(shù)——Baum-Welch 算法 28
3.5 用于解碼HMM 狀態(tài)序列的維特比算法32
3.5.1 動態(tài)規(guī)劃和維特比算法32
3.5.2 用于解碼HMM 狀態(tài)的動態(tài)規(guī)劃算法33
3.6 隱馬爾可夫模型和生成語音識別模型的變體35
3.6.1 用于語音識別的GMM-HMM 模型 36
3.6.2 基于軌跡和隱藏動態(tài)模型的語音建模和識別37
3.6.3 使用生成模型HMM 及其變體解決語音識別問題 38
第二部分深度神經(jīng)網(wǎng)絡(luò)41
4 深度神經(jīng)網(wǎng)絡(luò)42
4.1 深度神經(jīng)網(wǎng)絡(luò)框架42
4.2 使用誤差反向傳播來進行參數(shù)訓(xùn)練 45
4.2.1 訓(xùn)練準則 45
4.2.2 訓(xùn)練算法46
4.3 實際應(yīng)用50
4.3.1 數(shù)據(jù)預(yù)處理51
4.3.2 模型初始化52
4.3.3 權(quán)重衰減52
4.3.4 丟棄法 53
4.3.5 批量塊大小的選擇55
4.3.6 取樣隨機化56
4.3.7 慣性系數(shù) 57
4.3.8 學(xué)習(xí)率和停止準則58
4.3.9 網(wǎng)絡(luò)結(jié)構(gòu)59
4.3.10 可復(fù)現(xiàn)性與可重啟性 59
5 高級模型初始化技術(shù)61
5.1 受限玻爾茲曼機61
5.1.1 受限玻爾茲曼機的屬性63
5.1.2 受限玻爾茲曼機參數(shù)學(xué)習(xí)66
5.2 深度置信網(wǎng)絡(luò)預(yù)訓(xùn)練 69
5.3 降噪自動編碼器預(yù)訓(xùn)練71
5.4 鑒別性預(yù)訓(xùn)練74
5.5 混合預(yù)訓(xùn)練75
5.6 采用丟棄法的預(yù)訓(xùn)練 75
第三部分語音識別中的深度神經(jīng)網(wǎng)絡(luò)–隱馬爾可夫混合模型77
6 深度神經(jīng)網(wǎng)絡(luò)–隱馬爾可夫模型混合系統(tǒng)78
6.1 DNN-HMM 混合系統(tǒng) 78
6.1.1 結(jié)構(gòu)78
6.1.2 用CD-DNN-HMM 解碼80
6.1.3 CD-DNN-HMM 訓(xùn)練過程81
6.1.4 上下文窗口的影響83
6.2 CD-DNN-HMM 的關(guān)鍵模塊及分析 85
6.2.1 進行比較和分析的數(shù)據(jù)集和實驗85
6.2.2 對單音素或者三音素的狀態(tài)進行建模 87
6.2.3 越深越好88
6.2.4 利用相鄰的語音幀89
6.2.5 預(yù)訓(xùn)練 90
6.2.6 訓(xùn)練數(shù)據(jù)的標注質(zhì)量的影響 90
6.2.7 調(diào)整轉(zhuǎn)移概率 91
6.3 基于KL 距離的隱馬爾可夫模型91
7 訓(xùn)練和解碼的加速93
7.1 訓(xùn)練加速93
7.1.1 使用多GPU 流水線反向傳播94
7.1.2 異步隨機梯度下降97
7.1.3 增廣拉格朗日算法及乘子方向交替算法100
7.1.4 減小模型規(guī)模 101
7.1.5 其他方法102
7.2 加速解碼103
7.2.1 并行計算103
7.2.2 稀疏網(wǎng)絡(luò)105
7.2.3 低秩近似107
7.2.4 用大尺寸DNN 訓(xùn)練小尺寸DNN108
7.2.5 多幀DNN 109
8 深度神經(jīng)網(wǎng)絡(luò)序列鑒別性訓(xùn)練111
8.1 序列鑒別性訓(xùn)練準則 111
8.1.1 zui大相互信息 112
8.1.2 增強型MMI 113
8.1.3 zui小音素錯誤/狀態(tài)級zui小貝葉斯風(fēng)險114
8.1.4 統(tǒng)一的公式115
8.2 具體實現(xiàn)中的考量116
8.2.1 詞圖產(chǎn)生116
8.2.2 詞圖補償117
8.2.3 幀平滑 119
8.2.4 學(xué)習(xí)率調(diào)整119
8.2.5 訓(xùn)練準則選擇 120
8.2.6 其他考量120
8.3 噪聲對比估計 121
8.3.1 將概率密度估計問題轉(zhuǎn)換為二分類設(shè)計問題121
8.3.2 拓展到未歸一化的模型123
8.3.3 在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練中應(yīng)用噪聲對比估計算法 124
第四部分深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí)127
9 深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí)128
9.1 特征和分類器的聯(lián)合學(xué)習(xí)128
9.2 特征層級129
9.3 使用隨意輸入特征的靈活性 133
9.4 特征的魯棒性 134
9.4.1 對說話人變化的魯棒性134
9.4.2 對環(huán)境變化的魯棒性 135
9.5 對環(huán)境的魯棒性137
9.5.1 對噪聲的魯棒性138
9.5.2 對語速變化的魯棒性 140
9.6 缺乏嚴重信號失真情況下的推廣能力141
10 深度神經(jīng)網(wǎng)絡(luò)和混合高斯模型的融合144
10.1 在GMM-HMM 系統(tǒng)中使用由DNN 衍生的特征144
10.1.1 使用Tandem 和瓶頸特征的GMM-HMM 模型144
10.1.2 DNN-HMM 混合系統(tǒng)與采用深度特征的GMM-HMM 系統(tǒng)的比較147
10.2 識別結(jié)果融合技術(shù)149
10.2.1 識別錯誤票選降低技術(shù)(ROVER) 149
10.2.2 分段條件隨機場(SCARF) 151
10.2.3 zui小貝葉斯風(fēng)險詞圖融合153
10.3 幀級別的聲學(xué)分數(shù)融合153
10.4 多流語音識別 154
11 深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)技術(shù)157
11.1 深度神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)問題157
11.2 線性變換159
11.2.1 線性輸入網(wǎng)絡(luò).159
11.2.2 線性輸出網(wǎng)絡(luò) 159
11.3 線性隱層網(wǎng)絡(luò) 161
11.4 保守訓(xùn)練162
11.4.1 L2 正則項163
11.4.2 KL 距離正則項163
11.4.3 減少每個說話人的模型開銷 165
11.5 子空間方法167
11.5.1 通過主成分分析構(gòu)建子空間 167
11.5.2 噪聲感知、說話人感知及設(shè)備感知訓(xùn)練168
11.5.3 張量172
11.6 DNN 說話人自適應(yīng)的效果172
11.6.1 基于KL 距離的正則化方法 173
11.6.2 說話人感知訓(xùn)練174
第五部分先進的深度學(xué)習(xí)模型177
12 深度神經(jīng)網(wǎng)絡(luò)中的表征共享和遷移178
12.1 多任務(wù)和遷移學(xué)習(xí)178
12.1.1 多任務(wù)學(xué)習(xí) 178
12.1.2 遷移學(xué)習(xí)180
12.2 多語言和跨語言語音識別180
12.2.1 基于Tandem 或瓶頸特征的跨語言語音識別181
12.2.2 共享隱層的多語言深度神經(jīng)網(wǎng)絡(luò)182
12.2.3 跨語言模型遷移185
12.3 語音識別中深度神經(jīng)網(wǎng)絡(luò)的多目標學(xué)習(xí)188
12.3.1 使用多任務(wù)學(xué)習(xí)的魯棒語音識別188
12.3.2 使用多任務(wù)學(xué)習(xí)改善音素識別189
12.3.3 同時識別音素和字素(graphemes) 190
12.4 使用視聽信息的魯棒語音識別 190
13 循環(huán)神經(jīng)網(wǎng)絡(luò)及相關(guān)模型192
13.1 介紹192
13.2 基本循環(huán)神經(jīng)網(wǎng)絡(luò)中的狀態(tài)-空間公式194
13.3 沿時反向傳播學(xué)習(xí)算法195
13.3.1 zui小化目標函數(shù) 196
13.3.2 誤差項的遞歸計算196
13.3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)權(quán)重的更新197
13.4 一種用于學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)的原始對偶技術(shù)199
13.4.1 循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的難點199
13.4.2 回聲狀態(tài)(Echo-State)性質(zhì)及其充分條件 199
13.4.3 將循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)轉(zhuǎn)化為帶約束的優(yōu)化問題 200
13.4.4 一種用于學(xué)習(xí)RNN 的原始對偶方法201
13.5 結(jié)合長短時記憶單元(LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)203
13.5.1 動機與應(yīng)用203
13.5.2 長短時記憶單元的神經(jīng)元架構(gòu)204
13.5.3 LSTM-RNN 的訓(xùn)練205
13.6 循環(huán)神經(jīng)網(wǎng)絡(luò)的對比分析205
13.6.1 信息流方向的對比:自上而下還是自下而上 206
13.6.2 信息表征的對比:集中式還是分布式208
13.6.3 解釋能力的對比:隱含層推斷還是端到端學(xué)習(xí)209
13.6.4 參數(shù)化方式的對比:吝嗇參數(shù)集合還是大規(guī)模參數(shù)矩陣 209
13.6.5 模型學(xué)習(xí)方法的對比:變分推理還是梯度下降210
13.6.6 識別正確率的比較211
13.7 討論212
14 計算型網(wǎng)絡(luò)214
14.1 計算型網(wǎng)絡(luò)214
14.2 前向計算215
14.3 模型訓(xùn)練 218
14.4 典型的計算節(jié)點222
14.4.1 無操作數(shù)的計算節(jié)點 223
14.4.2 含一個操作數(shù)的計算節(jié)點223
14.4.3 含兩個操作數(shù)的計算節(jié)點228
14.4.4 用來計算統(tǒng)計量的計算節(jié)點類型235
14.5 卷積神經(jīng)網(wǎng)絡(luò) 236
14.6 循環(huán)連接 239
14.6.1 只在循環(huán)中一個接一個地處理樣本240
14.6.2 同時處理多個句子242
14.6.3 創(chuàng)建任意的循環(huán)神經(jīng)網(wǎng)絡(luò)243
15 總結(jié)及未來研究方向245
15.1 路線圖 245
15.1.1 語音識別中的深度神經(jīng)網(wǎng)絡(luò)啟蒙245
15.1.2 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和解碼加速248
15.1.3 序列鑒別性訓(xùn)練248
15.1.4 特征處理249
15.1.5 自適應(yīng) 250
15.1.6 多任務(wù)和遷移學(xué)習(xí)251
15.1.7 卷積神經(jīng)網(wǎng)絡(luò) 251
15.1.8 循環(huán)神經(jīng)網(wǎng)絡(luò)和長短時記憶神經(jīng)網(wǎng)絡(luò)251
15.1.9 其他深度模型 252
15.2 技術(shù)前沿和未來方向 252
15.2.1 技術(shù)前沿簡析252
15.2.2 未來方向253
參考文獻255???????