本書結合開源和面向商業(yè)的計算平臺,從實用的角度,全面系統(tǒng)闡述數(shù)據(jù)分析技術及其應用,內(nèi)容涵蓋機器學習基礎、深度學習、人工智能、統(tǒng)計學和進化學習等。
需要進行分析且在某些情況下需要實時處理的數(shù)據(jù)大量出現(xiàn),例如醫(yī)學應用中的X射線圖像、網(wǎng)絡安全數(shù)據(jù)、犯罪數(shù)據(jù)、電信和股票市場數(shù)據(jù)、健康記錄、商業(yè)分析數(shù)據(jù)等,這迫使人們探索處理超大量數(shù)據(jù)的快速算法。包括R、RapidMiner和Weka在內(nèi)的應用程序和平臺為分析提供了基礎,但這些平臺的使用者往往很少關注或根本不關注對數(shù)據(jù)結果有很大影響的底層數(shù)學和處理過程,導致無法解釋結果或糾正錯誤,甚至無法發(fā)現(xiàn)錯誤。
本書試圖通過提供一些大數(shù)據(jù)分析中較受歡迎的技術來彌補這一差距。當使用廣泛可用的開源和商業(yè)化計算平臺、語言和可視化系統(tǒng)進行大數(shù)據(jù)分析時,本書相當有用。與這些平臺結合在一起,本書提供了處理大數(shù)據(jù)所需的一整套工具,可以快速實現(xiàn)和應用。
本書對機器學習基礎、深度學習、人工智能、統(tǒng)計和演化學習的綜合概念進行了充分的解釋,提供了相關的應用程序,適合本科生、研究生和大數(shù)據(jù)分析愛好者閱讀。
本書可以緩解人們對數(shù)據(jù)分析相關數(shù)學知識的恐懼,并有助于開發(fā)人工智能、環(huán)境傳感器數(shù)據(jù)建模和分析、健康信息學、商業(yè)數(shù)據(jù)分析、物聯(lián)網(wǎng)數(shù)據(jù)及深度學習應用。
二十多年前,世界上許多電子工程和計算實驗室都致力于信號處理研究。信號處理專家通常大量應用線性代數(shù)和微積分從信號中獲得洞察。近年來,信號處理概念與統(tǒng)計數(shù)據(jù)分析相結合,開創(chuàng)了大數(shù)據(jù)分析的新領域。信號處理的再生打開了許多組織作為高性能工業(yè)數(shù)據(jù)應用金礦的數(shù)據(jù)存儲庫。數(shù)據(jù)分析應用概念源自應用統(tǒng)計學、數(shù)據(jù)挖掘、人工智能和深度學習。
本書中的許多概念都是對深度學習和人工智能基礎知識的簡化。在本書中,我們解釋了基本的數(shù)學概念,并對研究生和準研究生經(jīng)常感到困難的課題給予了極大的關注。本書涵蓋卡爾曼濾波器、馬爾可夫鏈、隱馬爾可夫模型(HMM)、神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、概率神經(jīng)網(wǎng)絡、支持向量機、遺傳算法、有限狀態(tài)機和計算圖。關于統(tǒng)計學的章節(jié)假定讀者具備本科階段的統(tǒng)計學基礎知識,對更難理解的概念進行了深入的解釋,包括主成分分析,以及使用概率生成函數(shù)、矩母函數(shù)、特征函數(shù)的統(tǒng)計分布。
本書中介紹的大多數(shù)算法基礎都是穩(wěn)定的,信號處理和應用統(tǒng)計專家已經(jīng)使用了數(shù)十年。它們同樣適用于生物信息學、數(shù)據(jù)聚類和分類、數(shù)據(jù)可視化、傳感器應用和跟蹤。
本書主要針對研究生課程,提供了捕獲、理解、分析、設計和開發(fā)數(shù)據(jù)分析框架所需的相關數(shù)學工具與概念,還簡化了數(shù)據(jù)分析軟件程序的開發(fā)以及數(shù)據(jù)分析在各個行業(yè)中的應用。通過簡化算法并使用相關的工作示例,本書能幫助你理解將來繼續(xù)學習數(shù)據(jù)分析時使用的其他概念。
本書有兩章來自我以前的研究生,還有一章來自其他人。這些章節(jié)是長期應用基本概念的結果。我們向教師、研究生和導師、課程和算法設計師、數(shù)據(jù)和大數(shù)據(jù)分析以及深度學習領域的開發(fā)人員推薦本書。有效掌握這些基礎內(nèi)容,你將有能力獲得關于數(shù)據(jù)分析和深度學習的更深入的實踐見解。
譯者序
前言
致謝
關于作者
貢獻者名單
縮略語
第1章 馬爾可夫鏈及其應用1
1.1簡介1
1.2定義1
1.2.1狀態(tài)空間2
1.2.2軌跡2
1.3使用馬爾可夫鏈的預測5
1.3.1初始狀態(tài)5
1.3.2長期概率6
1.4馬爾可夫鏈的應用8
第2章隱馬爾可夫建模10
2.1隱馬爾可夫建模表示法10
2.2釋放概率11
2.3隱馬爾可夫模型12
2.3.1建立HMM12
2.3.2圖形形式的HMM13
2.4HMM中的三大問題16
2.4.1表示法16
2.4.2問題1的解決方案:似然估計16
2.5狀態(tài)轉移表19
2.5.1輸入符號表20
2.5.2輸出符號表20
2.6問題3的解決方案:找到HMM20
2.7練習21
第3章卡爾曼濾波器入門23
3.1簡介23
3.2標量形式23
3.3矩陣形式26
3.3.1狀態(tài)變量的模型27
3.3.2狀態(tài)的高斯表示29
3.4狀態(tài)矩陣32
3.4.1對象在單個方向上移動的
狀態(tài)矩陣32
3.4.2二維運動對象的狀態(tài)矩陣35
3.4.3在三維空間中移動的對象36
3.5帶有噪聲的卡爾曼濾波器模型38
參考文獻38
第4章卡爾曼濾波器II39
4.1簡介39
4.2卡爾曼濾波器中的處理步驟39
4.2.1協(xié)方差矩陣39
4.2.2協(xié)方差矩陣的計算方法41
4.2.3卡爾曼濾波器中的迭代45
第5章遺傳算法50
5.1簡介50
5.2遺傳算法的步驟50
5.3遺傳算法的相關術語51
5.4適應度函數(shù)52
5.5選擇54
5.5.1輪盤賭54
5.5.2交叉54
5.6化單個變量的函數(shù)56
5.7連續(xù)遺傳算法58
5.7.1地形圖的海拔58
5.7.2遺傳算法在傳感器溫度記錄中的應用60
參考文獻61
第6章計算圖的微積分62
6.1簡介62
6.2復合表達式63
6.3計算偏導數(shù)63
6.4積分計算66
6.4.1梯形法則66
6.4.2辛普森法則67
6.5多徑復合導數(shù)67
第7章支持向量機69
7.1簡介69
7.2支持向量機的數(shù)學基礎70
7.2.1超平面簡介70
7.2.2平行超平面71
7.2.3兩平行平面之間的距離72
7.3支持向量機問題73
7.3.1問題定義73
7.3.2線性可分情況73
7.4超平面的定位(素數(shù)問題)75
7.4.1確定邊界75
7.4.2點xi與分離超平面的距離76
7.4.3求解超平面問題77
7.5拉格朗日優(yōu)化函數(shù)78
7.5.1單約束優(yōu)化78
7.5.2多約束優(yōu)化79
7.5.3Karush-Kuhn-Tucker條件81
7.6SVM優(yōu)化問題81
7.6.1原始SVM優(yōu)化問題81
7.6.2對偶優(yōu)化問題82
7.7線性SVM數(shù)據(jù)84
7.7.1松弛變量85
7.7.2使用核的非線性數(shù)據(jù)分類86
參考文獻90
第8章人工神經(jīng)網(wǎng)絡91
8.1簡介91
8.2神經(jīng)元91
第9章神經(jīng)網(wǎng)絡訓練101
9.1簡介101
9.2神經(jīng)網(wǎng)絡架構101
9.3反向傳播模型101
9.4帶有計算圖的反向傳播示例104
9.5反向傳播104
9.6神經(jīng)網(wǎng)絡實用訓練106
9.6.1前向傳播106
9.6.2反向傳播108
9.7權重方法的初始化111
9.7.1Xavier初始化111
9.7.2批處理標準化112
9.8結論112
參考文獻113
第10章循環(huán)神經(jīng)網(wǎng)絡114
10.1簡介114
10.2實例114
10.3原理116
第11章卷積神經(jīng)網(wǎng)絡124
11.1簡介124
11.2卷積矩陣124
11.3卷積核125
11.4卷積神經(jīng)網(wǎng)絡術語129
11.4.1概念和超參數(shù)129
11.4.2CNN處理階段131
11.4.3池化層133
11.4.4全連接層134
11.5CNN設計原則134
11.6結論135
參考文獻135
第12章主成分分析136
12.1簡介136
12.2定義136
12.3主成分計算141
12.3.1使用向量投影的PCA141
12.3.2使用協(xié)方差矩陣進行PCA計算142
12.3.3使用奇異值分解的PCA144
12.3.4PCA的應用145
參考文獻146
第13章矩母函數(shù)147
13.1隨機變量的矩147
13.1.1隨機變量的中心矩147
13.1.2矩特性148
13.2一元矩母函數(shù)149
13.3矩母函數(shù)的級數(shù)表示150
13.3.1概率質量函數(shù)的性質151
13.3.2概率分布函數(shù)f(x)的性質151
13.4離散隨機變量的矩母函數(shù)151
13.4.1伯努利隨機變量151
13.4.2二項隨機變量152
13.4.3幾何隨機變量153
13.4.4泊松隨機變量153
13.5連續(xù)隨機變量的矩母函數(shù)154
13.5.1指數(shù)分布154
13.5.2正態(tài)分布154
13.5.3伽馬分布155
13.6矩母函數(shù)的性質156
13.7多元矩母函數(shù)156
13.8矩母函數(shù)的應用157
第14章特征函數(shù)158
14.1簡介158
14.2離散單隨機變量的特征函數(shù)159
14.2.1泊松隨機變量的特征函數(shù)159
14.2.2二項隨機變量的特征函數(shù)159
14.2.3連續(xù)隨機變量的特征函數(shù)159
第15章概率生成函數(shù)161
15.1簡介161
15.2離散概率生成函數(shù)161
15.2.1概率生成函數(shù)的性質162
15.2.2伯努利隨機變量的概率生成函數(shù)163
15.2.3二項隨機變量的概率生成函數(shù)163
15.2.4泊松隨機變量的概率生成函數(shù)163
15.2.5幾何隨機變量的概率生成函數(shù)164
15.2.6負二項隨機變量的概率生成函數(shù)165
15.3概率生成函數(shù)在數(shù)據(jù)分析中的應用167
15.3.1離散事件應用167
15.3.2傳染病建模168
參考文獻170
第16章基于人工神經(jīng)網(wǎng)絡的數(shù)字身份管理系統(tǒng)171
16.1簡介171
16.2數(shù)字身份度量171
16.3身份解析172
16.4生物識別系統(tǒng)架構173
16.4.1指紋識別174
16.4.2人臉識別174
16.5信息融合175
16.6人工神經(jīng)網(wǎng)絡176
16.7多模式數(shù)字身份管理系統(tǒng)實現(xiàn)177
16.7.1終端、指紋掃描儀和攝像頭177
16.7.2指紋和人臉識別SDK178
16.7.3數(shù)據(jù)庫178
16.7.4驗證:連接到主機并選擇驗證178
16.8結論179
參考文獻179
第17章物聯(lián)網(wǎng)數(shù)據(jù)分類的概率神經(jīng)網(wǎng)絡分類器182
17.1簡介182
17.2概率神經(jīng)網(wǎng)絡182
17.3廣義回歸神經(jīng)網(wǎng)絡184
17.4向量量化GRNN185
17.5試驗工作188
17.6結論與未來工作189
參考文獻189
第18章分層概率有限狀態(tài)機的MML學習與推斷191
18.1簡介191
18.2有限狀態(tài)機和PFSM192
18.2.1有限狀態(tài)機的數(shù)學定義192
18.2.2狀態(tài)圖中的FSM表示192
18.3PFSM的MML編碼和推斷195
18.3.1建模PFSM195
18.3.2使用MML推斷PFSM198
18.4分層概率有限狀態(tài)機203
18.4.1定義HPFSM204
18.4.2HPFSM假設H的MML斷言代碼205
18.4.3HPFSM轉移的編碼206
18.5試驗207
18.5.1人工數(shù)據(jù)集試驗207
18.5.2ADL數(shù)據(jù)集試驗211
18.6小結214
參考文獻215
練習解答217