Python機器學習——數(shù)據(jù)建模與分析(第2版)
定 價:99 元
- 作者:薛薇
- 出版時間:2023/7/1
- ISBN:9787121459351
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.561;TP181
- 頁碼:392
- 紙張:
- 版次:01
- 開本:16開
本書將引領讀者進入Python機器學習領域。機器學習是一套先進、深刻且內(nèi)容豐富的算法集合,已成為數(shù)據(jù)科學中數(shù)據(jù)建模與分析的重要方法。Python是一款簡明、高效且功能強大的開源工具,也是數(shù)據(jù)科學實踐中最常用的計算機語言。學好機器學習的理論方法,掌握Python這個實用工具,是成長為數(shù)據(jù)科學人才所必需的。本書采用理論與實踐相結合的方式,理論上突出可讀性并兼具知識深度和廣度,實踐上強調(diào)可操作性并兼具應用廣泛性,對機器學習的原理部分進行了深入透徹的講解,對機器學習的算法部分給出了Python代碼,并且在各章中設置了Python編程示例。全彩呈現(xiàn)機器學習的數(shù)據(jù)建?梢暬瘓D例(80多幅彩圖),掃描書中相應二維碼即可查看。提供配套數(shù)據(jù)集、源代碼、教學PPT等學習資源,登錄華信教育資源網(wǎng)(www.hxedu.com.cn)即可免費下載。本書可作為高等院校機器學習、數(shù)據(jù)分析等專業(yè)課程的教材,也可作為數(shù)據(jù)科學應用研究者及對Python機器學習感興趣的數(shù)據(jù)建模與分析從業(yè)者的參考書。
薛薇,工學碩士,經(jīng)濟學博士,中國人民大學應用統(tǒng)計學科研究中心副主任,中國人民大學統(tǒng)計學院副教授。主要研究領域:機器學習和文本挖掘、復雜網(wǎng)絡建模等。關注統(tǒng)計和數(shù)據(jù)挖掘算法及軟件應用。涉足企業(yè)客戶終身價值測算,基于文本挖掘的熱點事件主題提取和分類,金融、貿(mào)易等復雜網(wǎng)絡動態(tài)建模等方面。主要代表性教材:《SPSS統(tǒng)計分析方法及應用》《R語言數(shù)據(jù)挖掘方法及應用》《R語言:大數(shù)據(jù)分析中的統(tǒng)計方法及應用》《SPSS Modeler數(shù)據(jù)挖掘方法及應用》《數(shù)據(jù)科學概論——從概念到應用》《Python機器學習——數(shù)據(jù)建模與分析》等。
目 錄
第1章 機器學習概述 1
1.1 機器學習的發(fā)展:人工智能中的機器學習 1
1.1.1 符號主義人工智能 2
1.1.2 基于機器學習的人工智能 2
1.2 機器學習的核心:數(shù)據(jù)和數(shù)據(jù)建模 4
1.2.1 機器學習的對象:數(shù)據(jù)集 4
1.2.2 機器學習的任務:數(shù)據(jù)建模 6
1.3 機器學習的典型應用 11
1.3.1 機器學習的典型行業(yè)應用 11
1.3.2 機器學習在客戶細分中的應用 12
1.3.3 機器學習在客戶流失分析中的應用 13
1.3.4 機器學習在營銷響應分析中的應用 14
1.3.5 機器學習在交叉銷售中的應用 15
1.3.6 機器學習在欺詐甄別中的應用 16
本章總結 16
本章習題 16
第2章 Python機器學習基礎 17
2.1 Python:機器學習的首選工具 17
2.2 Python的集成開發(fā)環(huán)境:Anaconda 18
2.2.1 Anaconda的簡介 19
2.2.2 Anaconda Prompt的使用 19
2.2.3 Spyder的使用 20
2.2.4 Jupyter Notebook的使用 22
2.3 Python第三方包的引用 23
2.4 NumPy使用示例 23
2.4.1 NumPy數(shù)組的創(chuàng)建和訪問 24
2.4.2 NumPy的計算功能 26
2.5 Pandas使用示例 28
2.5.1 Pandas的序列和索引 28
2.5.2 Pandas的數(shù)據(jù)框 29
2.5.3 Pandas的數(shù)據(jù)加工處理 30
2.6 NumPy和Pandas的綜合應用:空氣質量監(jiān)測數(shù)據(jù)的預處理和基本分析 32
2.6.1 空氣質量監(jiān)測數(shù)據(jù)的預處理 32
2.6.2 空氣質量監(jiān)測數(shù)據(jù)的基本分析 34
2.7 Matplotlib的綜合應用:空氣質量監(jiān)測數(shù)據(jù)的圖形化展示 37
2.7.1 AQI的時間序列變化特點 37
2.7.2 AQI的分布特征及相關性分析 38
本章總結 40
本章相關函數(shù)列表 40
本章習題 47
第3章 數(shù)據(jù)預測與預測建模 48
3.1 從線性回歸模型說起 49
3.1.1 線性回歸模型的含義 49
3.1.2 線性回歸模型的幾何理解 50
3.1.3 線性回歸模型的評價 50
3.1.4 Python應用實踐:PM2.5濃度預測 51
3.2 認識線性分類模型 56
3.2.1 線性分類模型的含義 56
3.2.2 線性分類模型的幾何理解 58
3.2.3 線性分類模型的評價 60
3.2.4 Python應用實踐:空氣質量等級預測 62
3.3 從線性預測模型到非線性預測模型 67
3.4 預測模型的參數(shù)估計 68
3.4.1 損失函數(shù)與有監(jiān)督學習 68
3.4.2 參數(shù)搜索策略 70
3.5 預測模型的選擇 72
3.5.1 泛化誤差的估計 72
3.5.2 Python模擬和啟示:理解泛化誤差 75
3.5.3 預測模型過擬合問題 78
3.5.4 模型選擇:偏差和方差 79
本章總結 82
本章相關函數(shù)列表 83
本章習題 83
第4章 數(shù)據(jù)預測建模:貝葉斯分類器 84
4.1 貝葉斯概率和貝葉斯法則 84
4.1.1 貝葉斯概率 84
4.1.2 貝葉斯法則 85
4.2 樸素貝葉斯分類器 85
4.2.1 從顧客行為分析角度看樸素貝葉斯分類器 85
4.2.2 Python模擬和啟示:認識樸素貝葉斯分類器的分類邊界 88
4.2.3 Python應用實踐:空氣質量等級預測 91
4.3 樸素貝葉斯分類器在文本分類中的應用 93
4.3.1 Python文本數(shù)據(jù)預處理:文本分詞和量化計算 94
4.3.2 Python文本描述性分析:詞云圖和文本相似性 97
4.3.3 Python文本分析綜合應用:裁判文書的要素提取 99
4.4 貝葉斯參數(shù)估計簡介* 102
4.4.1 從科比投籃分析角度看貝葉斯參數(shù)估計的基本思想 102
4.4.2 共軛先驗分布 103
4.4.3 Python應用實踐:科比投籃命中率的研究 106
本章總結 108
本章相關函數(shù)列表 108
本章習題 109
第5章 數(shù)據(jù)預測建模:近鄰分析 110
5.1 近鄰分析:K-近鄰法 110
5.1.1 距離:K-近鄰法的近鄰度量 111
5.1.2 參數(shù)K:1-近鄰法和K-近鄰法 112
5.2 回歸預測中的K-近鄰法 113
5.2.1 Python模擬和啟示:認識K-近鄰回歸線 113
5.2.2 Python模擬和啟示:認識K-近鄰回歸面 115
5.3 分類預測中的K-近鄰法 117
5.3.1 基于1-近鄰法和K-近鄰法的分類 117
5.3.2 Python模擬和啟示:參數(shù)K和分類邊界 118
5.4 基于觀測相似性的加權K-近鄰法 120
5.4.1 加權K-近鄰法的權重 121
5.4.2 Python模擬和啟示:認識加權K-近鄰分類邊界 123
5.5 K-近鄰法的Python應用實踐 124
5.5.1 空氣質量等級的預測 124
5.5.2 國產(chǎn)電視劇大眾評分的預測 126
5.6 K-近鄰法的適用性探討* 127
本章總結 129
本章相關函數(shù)列表 130
本章習題 130
第6章 數(shù)據(jù)預測建模:決策樹 131
6.1 決策樹的基本概念 131
6.1.1 什么是決策樹 131
6.1.2 決策樹的深層含義 133
6.2 回歸預測中的決策樹 134
6.2.1 決策樹的回歸面 134
6.2.2 Python模擬和啟示:樹深度對回歸面的影響 135
6.3 分類預測中的決策樹 136
6.3.1 決策樹的分類邊界 137
6.3.2 Python模擬和啟示:樹深度對分類邊界的影響 137
6.4 決策樹的生長和剪枝 139
6.4.1 決策樹的生長 140
6.4.2 決策樹的剪枝 141
6.5 經(jīng)典決策樹算法:CART 142
6.5.1 CART的生長 142
6.5.2 CART的后剪枝 145
6.6 決策樹的Python應用實踐 148
6.6.1 PM2.5濃度的預測 148
6.6.2 空氣質量等級的預測 149
6.6.3 藥物適用性研究 151
6.7 決策樹的高方差性* 153
本章總結 154
本章相關函數(shù)列表 154
本章習題 155
第7章 數(shù)據(jù)預測建模:集成學習 156
7.1 集成學習概述 156
7.1.1 高方差性問題的解決途徑 157
7.1.2 從弱模型到強模型的構建 157
7.2 基于重抽樣自舉法的集成學習 158
7.2.1 重抽樣自舉法 158
7.2.2 袋裝法的基本思想 158
7.2.3 隨機森林的基本思想 160
7.2.4 Python應用實踐:基于袋裝法和隨機森林預測PM2.5濃度 162
7.3 從弱模型到強模型的構建:提升法 165
7.3.1 提升法的基本思路 165
7.3.2 Python模擬和啟示:弱模型聯(lián)合成為強模型 166
7.3.3 分類預測中的提升法:AdaBoost.M1算法 168
7.3.4 Python模擬和啟示:認識AdaBoost.M1算法中高權重的樣本觀測 171
7.3.5 回歸預測中的提升法 173
7.3.6 Python應用實踐:基于AdaBoost預測PM2.5濃度 174
7.3.7 提升法的推廣算法* 176
7.4 梯度提升決策樹 179
7.4.1 梯度提升算法 179
7.4.2 梯度提升回歸樹 183
7.4.3 Python模擬和啟示:認識梯度提升回歸樹 184
7.4.4 梯度提升分類樹 185
7.4.5 Python模擬和啟示:認識梯度提升分類樹 186
7.5 XGBoost算法 188
7.5.1 XGBoost算法的目標函數(shù) 188
7.5.2 目標函數(shù)的近似表達 189
7.5.3 決策樹的求解 190
7.5.4 Python應用實踐:基于XGBoost算法預測空氣質量等級 191
本章總結 194
本章相關函數(shù)列表 194
本章習題 195
第8章 數(shù)據(jù)預測建模:人工神經(jīng)網(wǎng)絡 197
8.1 人工神經(jīng)網(wǎng)絡的基本概念 198
8.1.1 人工神經(jīng)網(wǎng)絡的基本構成 198
8.1.2 人工神經(jīng)網(wǎng)絡節(jié)點的功能 199
8.2 感知機網(wǎng)絡 200
8.2.1 感知機網(wǎng)絡中的節(jié)點 200
8.2.2 感知機網(wǎng)絡節(jié)點中的加法器 201
8.2.3 感知機網(wǎng)絡節(jié)點中的激活函數(shù) 202
8.2.4 Python模擬和啟示:認識激活函數(shù) 203
8.2.5 感知機網(wǎng)絡的權重訓練 206
8.3 多層感知機網(wǎng)絡 211
8.3.1 多層感知機網(wǎng)絡的結構 211
8.3.2 多層感知機網(wǎng)絡中的隱藏節(jié)點 213
8.3.3 Python模擬和啟示:認識隱藏節(jié)點 215
8.4 反向傳播算法 218
8.4.1 反向傳播算法的基本思想 218
8.4.2 局部梯度和連接權重更新 218
8.5 多層神經(jīng)網(wǎng)絡的其他問題* 220
8.6 人工神經(jīng)網(wǎng)絡的Python應用實踐 221
8.6.1 手寫體郵政編碼的識別 221
8.6.2 PM2.5濃度的回歸預測 224
本章總結 225
本章相關函數(shù)列表 225
本章習題 226
第9章 數(shù)據(jù)預測建模:支持向量機 227
9.1 支持向量分類概述 228
9.1.1 支持向量分類的基本思路 228
9.1.2 支持向量分類的三種情況 230
9.2 完全線性可分下的支持向量分類 231
9.2.1 完全線性可分下的超平面 231
9.2.2 參數(shù)求解和分類預測 233
9.2.3 Python模擬和啟示:認識支持向量 236
9.3 廣義線性可分下的支持向量分類 238
9.3.1 廣義線性可分下的超平面 238
9.3.2 廣義線性可分下的誤差懲罰和目標函數(shù) 239
9.3.3 Python模擬和啟示:認識懲罰參數(shù)C 240
9.3.4 參數(shù)求解和分類預測 242
9.4 線性不可分下的支持向量分類 243
9.4.1 線性不可分問題的一般解決方式 243
9.4.2 支持向量分類克服維災難的途徑 244
9.4.3 Python模擬和啟示:認識核函數(shù) 246
9.5 支持向量回歸概述* 249
9.5.1 支持向量回歸的基本思路 249
9.5.2 支持向量回歸的目標函數(shù)和約束條件 251
9.5.3 Python模擬和啟示:認識參數(shù)? 253
9.6 支持向量機的Python應用實踐:老人風險體位預警 254
9.6.1 示例背景和數(shù)據(jù)說明 255
9.6.2 Python實現(xiàn) 255
本章總結 260
本章相關函數(shù)列表 260
本章習題 260
第10章 特征選擇:過濾、包裹和嵌入策略 261
10.1 過濾策略下的特征選擇 262
10.1.1 低方差過濾法 263
10.1.2 高相關過濾法中的方差分析 264
10.1.3 高相關過濾法中的卡方檢驗 268
10.1.4 Python應用實踐:過濾策略下手寫體郵政編碼數(shù)字的特征選擇 270
10.1.5 其他高相關過濾法* 272
10.2 包裹策略下的特征選擇 274
10.2.1 包裹策略的基本思路 274
10.2.2 遞歸式特征剔除算法 275
10.2.3 基于交叉驗證的遞歸式特征剔除算法 276
10.2.4 Python應用實踐:包裹策略下手寫體郵政編碼數(shù)字的特征選擇 276
10.3 嵌入策略下的特征選擇 278
10.3.1 嶺回歸和Lasso回歸 278
10.3.2 彈性網(wǎng)回歸 282
10.3.3 Python應用實踐:嵌入策略下手寫體郵政編碼數(shù)字的特征選擇 283
本章總結 289
本章相關函數(shù)列表 289
本章習題 289
第11章 特征提。嚎臻g變換策略 290
11.1 主成分分析 291
11.1.1 主成分分析的基本出發(fā)點 291
11.1.2 主成分分析的基本原理 292
11.1.3 確定主成分 295
11.1.4 Python模擬與啟示:認識主成分 296
11.2 矩陣的奇異值分解 298
11.2.1 奇異值分解的基本思路 298
11.2.2 奇異值分解的Python應用實踐:臉部數(shù)據(jù)特征提取 299
11.3 核主成分分析* 301
11.3.1 核主成分分析的出發(fā)點 301
11.3.2 核主成分分析的基本原理 303
11.3.3 Python模擬和啟示:認識核主成分 305
11.4 因子分析 307
11.4.1 因子分析的基本出發(fā)點 308
11.4.2 因子分析的基本原理 309
11.4.3 Python模擬和啟示:認識因子分析的計算過程 312
11.4.4 因子分析的其他問題 316
11.4.5 因子分析的Python應用實踐:空氣質量綜合評測 318
本章總結 320
本章相關函數(shù)列表 321
本章習題 321
第12章 揭示數(shù)據(jù)內(nèi)在結構:聚類分析 322
12.1 聚類分析概述 322
12.1.1 聚類分析的目的 322
12.1.2 聚類算法概述 324
12.1.3 聚類解的評價 325
12.1.4 聚類解的可視化 328
12.2 基于質心的聚類模型:K-均值聚類 329
12.2.1 K-均值聚類基本過程 329
12.2.2 基于K-均值聚類的類別預測 331
12.2.3 Python模擬和啟示:認識K-均值聚類中的聚類數(shù)目K 331
12.3 基于連通性的聚類模型:系統(tǒng)聚類 335
12.3.1 系統(tǒng)聚類的基本過程 335
12.3.2 系統(tǒng)聚類中距離的連通性度量 335
12.3.3 Python模擬和啟示:認識系統(tǒng)聚類中的聚類數(shù)目K 336
12.4 基于高斯分布的聚類模型:EM聚類* 340
12.4.1 出發(fā)點:有限混合分布 341
12.4.2 EM聚類算法 342
12.4.3 Python模擬和啟示:認識EM聚類 345
12.5 聚類分析的Python應用實踐:環(huán)境污染的區(qū)域特征分析 348
本章總結 351
本章相關函數(shù)列表 351
本章習題 352
第13章 揭示數(shù)據(jù)內(nèi)在結構:特色聚類 353
13.1 基于密度的聚類:DBSCAN 353
13.1.1 DBSCAN中的相關概念 353
13.1.2 DBSCAN過程 355
13.1.3 Python模擬和啟示:認識DBSCAN的異形聚類特點 355
13.2 Mean-Shift聚類* 358
13.2.1 什么是核密度估計 359
13.2.2 核密度估計在Mean-Shift聚類中的意義 361
13.2.3 Mean-Shift聚類過程 362
13.2.4 Python模擬與啟示:認識Mean-Shift聚類中的核寬 363
13.3 BIRCH 365
13.3.1 BIRCH的特點 365
13.3.2 BIRCH算法中的聚類特征樹 365
13.3.3 BIRCH的基本思路 368
13.3.4 Python模擬和啟示:認識BIRCH的特點 370
13.4 特色聚類的Python應用實踐:批發(fā)商的市場細分 374
13.4.1 數(shù)據(jù)說明 374
13.4.2 Python實現(xiàn) 375
本章總結 377
本章相關函數(shù)列表 377
本章習題 378