作為機器學(xué)習(xí)的核心,《機器學(xué)入門》介紹了基于貝葉斯推論的機器學(xué)習(xí),其基本思想是將數(shù)據(jù)及數(shù)據(jù)產(chǎn)生的過程視為隨機事件,從數(shù)據(jù)的固有特征開始,通過一系列假設(shè)來進行數(shù)據(jù)的描述,進而構(gòu)建出與機器學(xué)習(xí)任務(wù)相適應(yīng)的隨機模型,然后通過模型的解析求解或近似求解得出未知事件的預(yù)測模型。通過貝葉斯學(xué)習(xí),我們可以了解到更多關(guān)于數(shù)據(jù)的信息,進而可以大致清楚進行學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的規(guī)模和復(fù)雜程度。更重要的是,當(dāng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中出現(xiàn)問題時,通過貝葉斯學(xué)習(xí)可以找到解決問題的方向和途徑。因此,可以說貝葉斯學(xué)習(xí)是深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的理論基礎(chǔ),也是進行神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的必修課。本書在內(nèi)容安排上,盡可能對概率統(tǒng)計和隨機過程的基礎(chǔ)進行了較為完整的介紹,并對常用的概率分布進行了詳盡的分析。在此基礎(chǔ)上重點介紹了單一模型及混合模型的貝葉斯推論方法,并結(jié)合具體應(yīng)用進行了擴展和分析。在注重理論介紹的同時也考慮到了實際的應(yīng)用擴展,從而保證了讀者學(xué)習(xí)的完整性。其所給出的隨機模型分析、構(gòu)建及求解方法力圖詳盡,對讀者進行貝葉斯方法的學(xué)習(xí)和實際應(yīng)用具有較高的指導(dǎo)和參考價值。
譯者序
原書序
原書前言
第1章 機器學(xué)習(xí)與貝葉斯學(xué)習(xí) 1
1.1 什么是機器學(xué)習(xí)? 1
1.2 機器學(xué)習(xí)的典型任務(wù) 2
1.2.1 回歸 2
1.2.2 分類 3
1.2.3 聚類 4
1.2.4 降維 4
1.2.5 其他典型任務(wù) 6
1.3 機器學(xué)習(xí)的兩類方法 6
1.3.1 基于工具箱的機器學(xué)習(xí) 6
1.3.2 基于建模的機器學(xué)習(xí) 7
1.4 概率的基本計算 8
1.4.1 概率分布 8
1.4.2 概率分布的推定 9
1.4.3 紅球和白球問題 11
1.4.4 多個觀測數(shù)據(jù) 13
1.4.5 逐次推論 15
1.4.6 參數(shù)未知的情況 15
1.5 圖模型 16
1.5.1 有向圖 17
1.5.2 節(jié)點的附加條件 18
1.5.3 馬爾可夫覆蓋 20
1.6 貝葉斯學(xué)習(xí)方法 20
1.6.1 模型的構(gòu)建和推論 20
1.6.2 各類任務(wù)中的貝葉斯推論 21
1.6.3 復(fù)雜后驗分布的近似 24
1.6.4 基于不確定性的決策 25
1.6.5 貝葉斯學(xué)習(xí)的優(yōu)點與缺點 26
第2章 基本的概率分布 30
2.1 期望值30
2.1.1 期望值的定義 30
2.1.2 基本的期望值 30
2.1.3 熵 31
2.1.4 KL散度 32
2.1.5 抽樣的期望值近似計算 32
2.2 離散概率分布33
2.2.1 伯努利分布 33
2.2.2 二項分布 35
2.2.3 類分布 36
2.2.4 多項分布 37
2.2.5 泊松分布 38
2.3 連續(xù)概率分布40
2.3.1 Beta分布 40
2.3.2 Dirichlet分布 41
2.3.3 Gamma分布 43
2.3.4 一維高斯分布 44
2.3.5 多維高斯分布 45
2.3.6 Wishart分布 48
第3章 基于貝葉斯推論的學(xué)習(xí)和預(yù)測 51
3.1 學(xué)習(xí)和預(yù)測51
3.1.1 參數(shù)的后驗分布 51
3.1.2 預(yù)測分布 523.1.3 共軛先驗分布 53
3.1.4 非共軛先驗分布的運用 54
3.2 離散概率分布的學(xué)習(xí)和預(yù)測55
3.2.1 伯努利分布的學(xué)習(xí)和預(yù)測 55
3.2.2 類分布的學(xué)習(xí)和預(yù)測 59
3.2.3 泊松分布的學(xué)習(xí)和預(yù)測 61
3.3 一維高斯分布的學(xué)習(xí)和預(yù)測63
3.3.1 均值未知的情況 63
3.3.2 精度未知的情況 66
3.3.3 均值和精度均未知的情況 68
3.4 多維高斯分布的學(xué)習(xí)和預(yù)測71
3.4.1 均值未知的情況 71
3.4.2 精度未知的情況 73
3.4.3 均值和精度均未知的情況 75
3.5 線性回歸的例子77
3.5.1 模型的構(gòu)建 77
3.5.2 后驗分布和預(yù)測分布的計算 78
3.5.3 模型的比較 80
第4章 混合模型和近似推論 84
4.1 混合模型和后驗分布的推論84
4.1.1 使用混合模型的理由 84
4.1.2 混合模型的數(shù)據(jù)生成過程 85
4.1.3 混合模型的后驗分布 87
4.2 概率分布的近似方法88
4.2.1 吉布斯采樣 88
4.2.2 變分推論 90
4.3 泊松混合模型的推論93
4.3.1 泊松混合模型 93
4.3.2 吉布斯采樣 94
4.3.3 變分推論 97
4.3.4 折疊式吉布斯采樣 100
4.3.5 簡易實驗 105
4.4 高斯混合模型中的推論106
4.4.1 高斯混合模型 106
4.4.2 吉布斯采樣 107
4.4.3 變分推論 110
4.4.4 折疊式吉布斯采樣 113
4.4.5 簡易實驗 115
第5章 應(yīng)用模型的構(gòu)建和推論 119
5.1 線性降維119
5.1.1 模型 120
5.1.2 變分推論 120
5.1.3 數(shù)據(jù)的不可逆壓縮 123
5.1.4 缺失值內(nèi)插 124
5.2 非負值矩陣因子分解126
5.2.1 模型 127
5.2.2 變分推論 129
5.3 隱馬爾可夫模型132
5.3.1 模型 133
5.3.2 完全分解變分推論 135
5.3.3 結(jié)構(gòu)化變分推論 139
5.4 主題模型143
5.4.1 模型 143
5.4.2 變分推論 146
5.4.3 折疊式吉布斯采樣 148
5.4.4LDA模型的應(yīng)用與擴展 151
5.5 張量分解151
5.5.1 協(xié)同過濾 1525.5.2 模型 154
5.5.3 變分推論 155
5.5.4 缺失值的內(nèi)插 160
5.6 logistic回歸161
5.6.1 模型 161
5.6.2 變分推論 162
5.6.3 離散值的預(yù)測 165
5.7 神經(jīng)網(wǎng)絡(luò)166
5.7.1 模型 167
5.7.2 變分推論 168
5.7.3 連續(xù)值的預(yù)測 169
附錄A 相關(guān)計算的補充 171
A.1 基本的矩陣計算171
A.1.1 轉(zhuǎn)置 171
A.1.2 逆矩陣 171
A.1.3 矩陣的跡 172
A.1.4 方陣的行列式 172
A.1.5 正定值矩陣 172
A.2 特殊函數(shù)173
A.2.1gamma函數(shù)和digamma函數(shù) 173
A.2.2sigmoid函數(shù)和softmax函數(shù) 173
A.3 梯度法174
A.3.1 函數(shù)的梯度 174
A.3.2 最速下降法 175
A.3.3 坐標(biāo)下降法 175
A.4 邊緣似然度下限176
A.4.1 邊緣似然度和ELBO 176
A.4.2 泊松混合分布的例子 177
參考文獻 178