深度學(xué)習(xí)是當(dāng)前人工智能的引領(lǐng)技術(shù),是引發(fā)新一輪人工智能熱潮的原動力。本書從模型、算法、原理等角度全面介紹深度學(xué)習(xí)技術(shù),包括近兩年最新成果。全書由三大部分組成。第一部分是機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)基礎(chǔ),包括機器學(xué)習(xí)問題、淺層機器學(xué)習(xí)、早期神經(jīng)網(wǎng)絡(luò)等;第二部分是深度學(xué)習(xí)模型及算法,包括深度生成模型、卷積網(wǎng)絡(luò)、循環(huán)和遞歸網(wǎng)絡(luò)、表示學(xué)習(xí)等。第三部分是深度學(xué)習(xí)理論基礎(chǔ)和前沿課題,包括深度學(xué)習(xí)表達能力分析、深度學(xué)習(xí)泛化能力分析、深度學(xué)習(xí)可視化、深度學(xué)習(xí)的數(shù)學(xué)、物理、神經(jīng)科學(xué)基礎(chǔ)等。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
前言
1 深度學(xué)習(xí)概述 1
1.1 人工智能與深度學(xué)習(xí) 1
1.2 深度學(xué)習(xí)的發(fā)展 2
1.2.1 深度學(xué)習(xí)的提出 2
1.2.2 深度學(xué)習(xí)的發(fā)展歷程 4
1.2.3 深度學(xué)習(xí)的知識體系 23
1.2.4 深度學(xué)習(xí)的數(shù)學(xué)基礎(chǔ) 25
1.2.5 深度學(xué)習(xí)的典型應(yīng)用 27
1.2.6 深度學(xué)習(xí)當(dāng)前面臨的挑戰(zhàn) 33
1.2.7 深度學(xué)習(xí)的未來 35
1.3 閱讀材料 36
參考文獻 37
2 機器學(xué)習(xí)基礎(chǔ) 44
2.1 機器學(xué)習(xí)基本概念 44
2.1.1 定義 44
2.1.2 數(shù)據(jù) 45
2.1.3 機器學(xué)習(xí)的三要素 45
2.1.4 歸納偏好 47
2.2 機器學(xué)習(xí)發(fā)展歷程 48
2.2.1 符號學(xué)派 48
2.2.2 聯(lián)結(jié)學(xué)派 50
2.2.3 進化學(xué)派 51
2.2.4 貝葉斯學(xué)派 52
2.2.5 類推學(xué)派 53
2.3 生成模型和判別模型 54
2.4 監(jiān)督學(xué)習(xí) 55
2.4.1 任務(wù)描述 55
2.4.2 評價標(biāo)準(zhǔn) 59
2.4.3 常用方法 60
2.5 無監(jiān)督學(xué)習(xí) 73
2.5.1 任務(wù)描述 73
2.5.2 評價標(biāo)準(zhǔn) 74
2.5.3 常用方法 75
2.6 強化學(xué)習(xí) 88
2.6.1 任務(wù)描述 88
2.6.2 評價標(biāo)準(zhǔn) 90
2.6.3 常用方法 91
2.7 閱讀材料 96
參考文獻 97
3 早期神經(jīng)網(wǎng)絡(luò) 100
3.1 早期研究成果 100
3.1.1 神經(jīng)網(wǎng)絡(luò)雛形 100
3.1.2 MCP神經(jīng)元模型 101
3.1.3 Hebbian學(xué)習(xí)規(guī)則 103
3.2 感知機 104
3.3 多層感知機 108
3.3.1 多層感知機的結(jié)構(gòu) 108
3.3.2 多層感知機的通用近似性 109
3.3.3 前向傳播過程 111
3.3.4 反向傳播過程 112
3.3.5 訓(xùn)練過程實例 116
3.4 其他神經(jīng)網(wǎng)絡(luò)模型 121
3.4.1 自組織映射 121
3.4.2 Hopfield網(wǎng)絡(luò) 123
3.5 神經(jīng)網(wǎng)絡(luò)的激活函數(shù) 125
3.6 深度的必要性 129
3.7 閱讀材料 133
參考文獻 134
4 深度學(xué)習(xí)的優(yōu)化 136
4.1 深度學(xué)習(xí)優(yōu)化的困難和挑戰(zhàn) 136
4.1.1 局部極小值問題 137
4.1.2 鞍點問題 137
4.1.3 海森矩陣病態(tài)問題 138
4.1.4 梯度爆炸 139
4.1.5 梯度消失 140
4.2 梯度下降基本方法 141
4.2.1 批梯度下降 142
4.2.2 隨機梯度下降 143
4.2.3 小批量梯度下降 144
4.3 動量 145
4.3.1 動量法 145
4.3.2 Nesterov動量法 147
4.4 自適應(yīng)學(xué)習(xí)率算法 148
4.4.1 Adagrad算法 149
4.4.2 RMSprop算法 151
4.4.3 AdaDelta算法 153
4.4.4 Adam算法 155
4.4.5 Adamax算法 161
4.4.6 Nadam算法 162
4.4.7 AMSgrad算法 163
4.5 二階近似法 165
4.5.1 牛頓法 165
4.5.2 DFP算法 166
4.5.3 BFGS算法 167
4.5.4 L-BFGS算法 168
4.5.5 共軛梯度算法 169
4.6 超參數(shù)調(diào)節(jié)方法 171
4.6.1 權(quán)值初始化 171
4.6.2 自動調(diào)節(jié)方法 171
4.6.3 手動調(diào)節(jié)方法 173
4.7 策略方法 174
4.7.1 批歸一化 175
4.7.2 預(yù)訓(xùn)練 175
4.7.3 神經(jīng)網(wǎng)絡(luò)的壓縮和加速 176
4.8 閱讀材料 179
參考文獻 180
5 正則化 184
5.1 理論框架 184
5.1.1 基本概念 184
5.1.2 過擬合與欠擬合 185
5.1.3 神經(jīng)網(wǎng)絡(luò)領(lǐng)域的正則化框架 186
5.2 參數(shù)范數(shù)懲罰 187
5.2.1 L2正則化 187
5.2.2 L1正則化 188
5.3 基于數(shù)據(jù)的正則化 189
5.3.1 數(shù)據(jù)集擴增 189
5.3.2 Dropout 190
5.4 基于優(yōu)化過程的正則化 195
5.5 基于函數(shù)模型的正則化 197
5.6 基于誤差函數(shù)的正則化 198
5.7 閱讀材料 199
參考文獻 199
6 卷積神經(jīng)網(wǎng)絡(luò) 201
6.1 卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)科學(xué)基礎(chǔ) 201
6.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu) 202
6.3 卷積神經(jīng)網(wǎng)絡(luò)的操作 205
6.3.1 卷積層操作 205
6.3.2 池化層操作 208
6.3.3 激活函數(shù) 211
6.4 設(shè)計卷積神經(jīng)網(wǎng)絡(luò)的動機 215
6.4.1 局部連接 215
6.4.2 參數(shù)共享 218
6.4.3 理解卷積層 219
6.4.4 理解整流線性單元 223
6.4.5 理解池化層 225
6.4.6 卷積與池化作為強先驗分布 229
6.5 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練 230
6.5.1 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程 230
6.5.2 輸入圖像預(yù)處理 237
6.5.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練技巧 240
6.5.4 卷積神經(jīng)網(wǎng)絡(luò)實例 241
6.6 CNN用于圖像分類 244
6.6.1 AlexNet 244
6.6.2 ZFNet 246
6.6.3 VGGNet 249
6.6.4 Inception 250
6.7 殘差神經(jīng)網(wǎng)絡(luò) 258
6.7.1 ResNet 258
6.7.2 ResNet V2 262
6.7.3 ResNeXt 267
6.7.4 DenseNet 268
6.7.5 MobileNet 270
6.7.6 ShuffleNet 271
6.7.7 Wide Residual Networks 272
6.7.8 Dual Path Network 274
6.8 CNN用于目標(biāo)檢測 275
6.8.1 R-CNN 276
6.8.2 Fast R-CNN 278
6.8.3 Faster R-CNN 280
6.8.4 Mask R-CNN 282
6.9 CNN用于像素級語義分割 285
6.10 CNN用于超高分辨率成像 288
6.11 球形卷積神經(jīng)網(wǎng)絡(luò) 292
6.11.1 球形卷積神經(jīng)網(wǎng)絡(luò)設(shè)計動機 292
6.11.2 球形空間與旋轉(zhuǎn)組之間的關(guān)系 293
6.11.3 應(yīng)用G-FFT代替卷積操作 294
6.11.4 球形卷積神經(jīng)網(wǎng)絡(luò)實驗 295
6.12 CNN用于文本處理 296
6.12.1 KimCNN 296
6.12.2 DCNN 298
6.13 膠囊網(wǎng)絡(luò) 301
6.13.1 動態(tài)路由膠囊網(wǎng)絡(luò) 301
6.13.2 EM路由矩陣膠囊網(wǎng)絡(luò) 308
6.13.3 膠囊與卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別 313
6.14 閱讀材料 314
參考文獻 315
7 循環(huán)神經(jīng)網(wǎng)絡(luò) 323
7.1 簡單循環(huán)神經(jīng)網(wǎng)絡(luò) 324
7.1.1 簡單循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 324
7.1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)的算法 328
7.2 循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 330
7.2.1 損失函數(shù)和dropout 330
7.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練技巧 331
7.3 長短期記憶神經(jīng)網(wǎng)絡(luò) 332
7.3.1 長短期記憶神經(jīng)網(wǎng)絡(luò)的起源 332
7.3.2 長短期記憶神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 334
7.3.3 長短期記憶神經(jīng)網(wǎng)絡(luò)的算法 335
7.4 長短期記憶神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 340
7.4.1 學(xué)習(xí)率 340
7.4.2 長短期記憶神經(jīng)網(wǎng)絡(luò)的訓(xùn)練技巧 340
7.5 RNN和LSTM的變體 343
7.5.1 RNN的簡單變體 343
7.5.2 增強RNN 350
7.5.3 LSTM的變體 357
7.6 遞歸神經(jīng)網(wǎng)絡(luò) 367
7.6.1 遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 367
7.6.2 遞歸神經(jīng)網(wǎng)絡(luò)的前向計算 368
7.6.3 遞歸神經(jīng)網(wǎng)絡(luò)的反向傳播 369
7.7 循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用 370
7.7.1 詞向量 370
7.7.2 評價指標(biāo) 372
7.7.3 機器翻譯 373
7.7.4 情感分析 377
7.7.5 對話模型 380
7.7.6 詩歌生成 383
7.7.7 圖片描述 384
7.7.8 語音識別 387
7.7.9 手寫識別 390
7.8 閱讀材料 392
參考文獻 393
8 注意力機制和記憶網(wǎng)絡(luò) 397
8.1 注意力機制的概念 397
8.2 注意力機制的分類 399
8.2.1 基于項的注意力和基于位置的注意力 400
8.2.2 全局注意力和局部注意力 402
8.2.3 自身注意力機制 404
8.3 注意力機制和RNN的結(jié)合 405
8.4 注意力機制的應(yīng)用 406
8.4.1 目標(biāo)檢測 406
8.4.2 圖片標(biāo)注 407
8.4.3 機器翻譯 409
8.4.4 問答系統(tǒng) 413
8.5 注意力變體 418
8.5.1 結(jié)構(gòu)化注意力機制 418
8.5.2 目標(biāo)端注意力 420
8.5.3 單調(diào)對齊注意力 422
8.5.4 循環(huán)注意力 424
8.5.5 注意力之上的注意力 425
8.6 記憶網(wǎng)絡(luò) 427
8.6.1 記憶網(wǎng)絡(luò)基礎(chǔ)模型 427
8.6.2 分層記憶網(wǎng)絡(luò) 429
8.6.3 端到端記憶網(wǎng)絡(luò) 431
8.6.4 動態(tài)記憶網(wǎng)絡(luò) 433
8.6.5 神經(jīng)圖靈機 434
8.6.6 記憶網(wǎng)絡(luò)的應(yīng)用 438
8.7 閱讀材料 440
參考文獻 441