定 價(jià):88 元
叢書(shū)名:高級(jí)大數(shù)據(jù)人才培養(yǎng)叢書(shū)
- 作者:王朝霞
- 出版時(shí)間:2023/5/1
- ISBN:9787121455025
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:308
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)是《數(shù)據(jù)挖掘》的第2版,系統(tǒng)地介紹了數(shù)據(jù)挖掘的理論、方法與應(yīng)用,包括數(shù)據(jù)特征分析及預(yù)處理、經(jīng)典數(shù)據(jù)挖掘算法(分類、回歸、聚類、關(guān)聯(lián)規(guī)則和集成學(xué)習(xí)等)、大數(shù)據(jù)新常態(tài)下催生的數(shù)據(jù)分析方法(推薦系統(tǒng)、鏈接分析與網(wǎng)頁(yè)排序、互聯(lián)網(wǎng)信息抽取、日志挖掘與查詢分析等)理論與方法。在此基礎(chǔ)上,除第1章外,每章均有基于Python語(yǔ)言的實(shí)例應(yīng)用。
劉鵬:教授,清華大學(xué)博士,南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總裁,中國(guó)大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會(huì)主任,中國(guó)信息協(xié)會(huì)教育分會(huì)人工智能教育專家委員會(huì)主任,教育部全國(guó)普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導(dǎo)委員會(huì)委員,第45屆世界技能大賽中國(guó)區(qū)云計(jì)算選拔賽裁判長(zhǎng)/專家指導(dǎo)組組長(zhǎng),2019年全國(guó)大學(xué)生數(shù)據(jù)建模比賽命題人,工信部云計(jì)算研究中心專家。在云計(jì)算、大數(shù)據(jù)、人工智能領(lǐng)域具有多年的研究積累,是我國(guó)該領(lǐng)域的知名專家。主持科研項(xiàng)目40多項(xiàng),發(fā)表論文80余篇,出版專業(yè)書(shū)籍30多種。曾于2002年獲得全球數(shù)據(jù)處理比賽PennySort的世界冠軍,于2003年奪得全國(guó)挑戰(zhàn)杯比賽總冠軍。提出的反垃圾郵件網(wǎng)格,被IEEE Cluster 2003評(píng)為杰出網(wǎng)格項(xiàng)目,為解決困擾全球的垃圾郵件問(wèn)題做出根本貢獻(xiàn),該技術(shù)成為云安全技術(shù)的基礎(chǔ)。曾擔(dān)任全軍網(wǎng)格技術(shù)研究中心主任,獲“全軍十大學(xué)習(xí)成才標(biāo)兵”(排名第一)、南京市“十大杰出青年”、“中國(guó)大數(shù)據(jù)創(chuàng)新百人”、江蘇省“333工程”中青年領(lǐng)軍人才、清華大學(xué)“學(xué)術(shù)新秀”等稱號(hào)。王朝霞:主要從事大數(shù)據(jù)分析、后勤信息化、軍事物流技術(shù)與裝備研究與教學(xué)工作。作為碩士研究生導(dǎo)師,已培養(yǎng)碩士生3名。指導(dǎo)本科畢業(yè)設(shè)計(jì)20余名。主持國(guó)家博士后基金1項(xiàng)、軍隊(duì)后勤重點(diǎn)科研項(xiàng)目2項(xiàng)、軍隊(duì)雙重建設(shè)子項(xiàng)目1項(xiàng),參與軍隊(duì)網(wǎng)信建設(shè)重大項(xiàng)目1項(xiàng)、參與軍隊(duì)后勤重點(diǎn)科研項(xiàng)目4項(xiàng)。發(fā)表論文50余篇,其中SCI檢索3篇(兩篇1作,一篇通信作者)、EI檢索6篇(四篇1作)。出版教材3本(主編1本)、譯著1本。授權(quán)專利3項(xiàng)、軟件著作權(quán)1項(xiàng)。獲教育部科技進(jìn)步一等獎(jiǎng)1項(xiàng),省部級(jí)優(yōu)秀課題二等獎(jiǎng)1項(xiàng)。
第1章 緒論 1
1.1 數(shù)據(jù)挖掘的基本概念 1
1.1.1 數(shù)據(jù)挖掘的概念 1
1.1.2 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘 2
1.1.3 數(shù)據(jù)挖掘的特性 3
1.1.4 數(shù)據(jù)挖掘的任務(wù)和功能 3
1.1.5 數(shù)據(jù)挖掘的對(duì)象 4
1.1.6 數(shù)據(jù)挖掘的過(guò)程 5
1.2 數(shù)據(jù)挖掘的起源及發(fā)展 6
1.3 數(shù)據(jù)挖掘的常用工具 9
1.3.1 商用工具 9
1.3.2 開(kāi)源工具 10
1.4 數(shù)據(jù)挖掘的應(yīng)用 12
習(xí)題 15
參考文獻(xiàn) 16
第2章 數(shù)據(jù)特征分析及預(yù)處理 17
2.1 數(shù)據(jù)類型 17
2.1.1 屬性與度量 17
2.1.2 數(shù)據(jù)集的類型 18
2.2 數(shù)據(jù)特征分析 19
2.2.1 描述數(shù)據(jù)集中趨勢(shì)的度量 19
2.2.2 描述數(shù)據(jù)離散程度的度量 21
2.2.3 數(shù)據(jù)相關(guān)性分析 24
2.3 數(shù)據(jù)預(yù)處理 28
2.3.1 數(shù)據(jù)清洗 28
2.3.2 數(shù)據(jù)集成 34
2.3.3 數(shù)據(jù)規(guī)范化 34
2.3.4 數(shù)據(jù)規(guī)約 38
2.3.5 數(shù)據(jù)離散化 45
2.4 數(shù)據(jù)的相似性 47
2.4.1 數(shù)值屬性的相似性度量 47
2.4.2 標(biāo)稱屬性的相似性度量 49
2.4.3 組合異種屬性的相似性度量 50
2.4.4 文本的相似性度量 52
2.4.5 離散序列的相似性度量 53
習(xí)題 55
參考文獻(xiàn) 56
第3章 分類 57
3.1 分類概述 58
3.1.1 分類的基本概念 58
3.1.2 分類的過(guò)程 58
3.1.3 分類器性能的評(píng)估方法 59
3.2 決策樹(shù) 61
3.2.1 決策樹(shù)的基本概念 62
3.2.2 決策樹(shù)的用途和特性 62
3.2.3 決策樹(shù)的工作原理 63
3.2.4 決策樹(shù)的構(gòu)建步驟 64
3.2.5 決策樹(shù)算法原理 65
3.3 貝葉斯分類 76
3.3.1 貝葉斯定理 76
3.3.2 樸素貝葉斯分類 77
3.3.3 貝葉斯分析 80
3.3.4 貝葉斯決策 80
3.3.5 貝葉斯估計(jì) 81
3.4 支持向量機(jī) 81
3.4.1 支持向量機(jī)的主要思想 82
3.4.2 支持向量機(jī)的基礎(chǔ)理論 82
3.4.3 支持向量機(jī)的原理 87
3.5 實(shí)戰(zhàn):Python支持向量機(jī)分類 92
習(xí)題 95
參考文獻(xiàn) 95
第4章 回歸 98
4.1 回歸的基本概念 99
4.1.1 回歸分析的定義 99
4.1.2 回歸分析的步驟 99
4.1.3 回歸分析要注意的問(wèn)題 100
4.2 一元回歸分析 100
4.2.1 一元回歸分析的模型設(shè)定 100
4.2.2 回歸參數(shù)的最小二乘估計(jì) 102
4.2.3 基本假設(shè)下OLS估計(jì)的統(tǒng)計(jì)性質(zhì) 104
4.2.4 誤差方差估計(jì) 105
4.2.5 回歸系數(shù)檢驗(yàn)(t檢驗(yàn)) 106
4.2.6 擬合優(yōu)度和模型檢驗(yàn)(F檢驗(yàn)) 107
4.3 多元線性回歸分析 108
4.3.1 多元線性回歸模型 108
4.3.2 多元線性回歸模型的假定 110
4.3.3 多元線性回歸模型的參數(shù)估計(jì) 110
4.3.4 顯著性檢驗(yàn) 112
4.3.5 回歸變量的選擇與逐步回歸 114
4.4 邏輯回歸分析 116
4.4.1 邏輯回歸模型 116
4.4.2 logit變換 117
4.4.3 估計(jì)回歸系數(shù) 118
4.4.4 Logistic分布 118
4.4.5 列聯(lián)表的Logistic回歸模型 119
4.5 其他回歸分析 120
4.5.1 多項(xiàng)式回歸 120
4.5.2 逐步回歸 120
4.5.3 嶺回歸 120
4.5.4 套索回歸 121
4.5.5 彈性網(wǎng)絡(luò) 122
4.6 實(shí)戰(zhàn):獲得最大有效率時(shí)的藥物用量 122
習(xí)題 127
參考文獻(xiàn) 128
第5章 聚類 129
5.1 聚類基本概念 129
5.2 劃分聚類方法 131
5.2.1 k-平均算法 132
5.2.2 k-中心點(diǎn)算法 134
5.3 層次聚類方法 137
5.3.1 層次聚類方法的分類 137
5.3.2 BIRCH算法 141
5.4 密度聚類方法 144
5.5 實(shí)戰(zhàn):Python聚類分析 147
5.5.1 Python實(shí)現(xiàn)k-均值劃分聚類 147
5.5.2 Python實(shí)現(xiàn)BIRCH層次聚類 150
5.5.3 Python實(shí)現(xiàn)DBSCAN密度聚類 152
習(xí)題 153
參考文獻(xiàn) 154
第6章 關(guān)聯(lián)規(guī)則 155
6.1 基本概念 155
6.1.1 啤酒與尿布的經(jīng)典案例 155
6.1.2 關(guān)聯(lián)規(guī)則的概念 155
6.1.3 頻繁項(xiàng)集的產(chǎn)生 159
6.2 Apriori算法:通過(guò)限制候選產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集 160
6.2.1 Apriori算法的頻繁項(xiàng)集產(chǎn)生 160
6.2.2 Apriori算法描述 162
6.3 FP-growth算法 164
6.3.1 構(gòu)造FP樹(shù) 165
6.3.2 挖掘FP樹(shù) 167
6.3.3 FP-growth算法 169
6.4 其他關(guān)聯(lián)規(guī)則算法 170
6.4.1 約束性關(guān)聯(lián)規(guī)則 170
6.4.2 增量式關(guān)聯(lián)規(guī)則 171
6.4.3 多層關(guān)聯(lián)規(guī)則 172
6.5 實(shí)戰(zhàn):購(gòu)物籃關(guān)聯(lián)規(guī)則挖掘 174
6.5.1 背景與挖掘目標(biāo) 174
6.5.2 分析方法與過(guò)程 174
6.5.3 總結(jié) 176
習(xí)題 177
參考文獻(xiàn) 177
第7章 集成學(xué)習(xí) 180
7.1 集成學(xué)習(xí)的概念 180
7.1.1 集成學(xué)習(xí)的構(gòu)建 180
7.1.2 集成學(xué)習(xí)的優(yōu)勢(shì) 181
7.2 Bagging算法與隨機(jī)森林算法 183
7.2.1 Bagging算法基本思想 183
7.2.2 Bagging算法流程 185
7.2.3 隨機(jī)森林算法 185
7.3 Boosting算法 187
7.3.1 Boosting算法流程 187
7.3.2 Boosting系列算法 188
7.4 結(jié)合策略 189
7.4.1 投票方法 189
7.4.2 疊加方法 190
7.5 多樣性 190
7.5.1 多樣性的概念 190
7.5.2 多樣性的作用 191
7.5.3 多樣性的度量 192
7.5.4 多樣性的構(gòu)建 195
7.6 實(shí)戰(zhàn)案例 196
7.6.1 鳶尾花數(shù)據(jù)集 197
7.6.2 集成學(xué)習(xí)算法 198
7.6.3 集成學(xué)習(xí)在鳶尾花數(shù)據(jù)集上的應(yīng)用 200
7.7 本章小結(jié) 205
習(xí)題 205
參考文獻(xiàn) 205
第8章 推薦系統(tǒng) 206
8.1 推薦系統(tǒng)概述 206
8.1.1 什么是推薦系統(tǒng) 206
8.1.2 推薦系統(tǒng)評(píng)測(cè)指標(biāo) 207
8.1.3 推薦系統(tǒng)中的冷啟動(dòng) 210
8.2 基于內(nèi)容的推薦 213
8.2.1 物品表示 214
8.2.2 物品相似度 217
8.2.3 用戶對(duì)物品的評(píng)分 218
8.2.4 基于向量空間模型的推薦 218
8.3 協(xié)同過(guò)濾推薦 222
8.3.1 協(xié)同過(guò)濾的基本概念 222
8.3.2 基于用戶的協(xié)同過(guò)濾 226
8.3.3 基于物品的協(xié)同過(guò)濾 228
8.3.4 隱語(yǔ)義模型和矩陣因子分解模型 230
8.4 基于標(biāo)簽的推薦 237
8.4.1 數(shù)據(jù)標(biāo)注與關(guān)鍵詞提取 238
8.4.2 標(biāo)簽分類 239
8.4.3 基于標(biāo)簽的推薦系統(tǒng)原理 240
8.5 實(shí)戰(zhàn):搭建一個(gè)電影推薦系統(tǒng) 243
8.5.1 數(shù)據(jù)準(zhǔn)備與導(dǎo)入 243
8.5.2 電影熱度值計(jì)算 244
8.5.3 電影相似度計(jì)算 244
8.5.4 指定標(biāo)簽下的電影統(tǒng)計(jì) 248
習(xí)題 250
參考文獻(xiàn) 250
第9章 互聯(lián)網(wǎng)數(shù)據(jù)挖掘 253
9.1 鏈接分析與網(wǎng)頁(yè)排序 253
9.1.1 PageRank 253
9.1.2 PageRank的快速計(jì)算 259
9.1.3 面向主題的PageRank 260
9.1.4 時(shí)間序列分析 260
9.1.5 排序背后的機(jī)理探討 262
9.1.6 重新思考時(shí)間序列 263
9.2 互聯(lián)網(wǎng)信息抽取 264
9.2.1 互聯(lián)網(wǎng)信息深度挖掘概述 264
9.2.2 典型應(yīng)用模型構(gòu)建 264
9.2.3 挖掘、存儲(chǔ)與網(wǎng)絡(luò)技術(shù)分析 265
9.2.4 數(shù)據(jù)信息采集管理 266
9.2.5 信息抽取方法與知識(shí)發(fā)現(xiàn) 267
9.2.6 智能決策 269
9.2.7 行業(yè)案例研究 270
9.3 日志挖掘與查詢分析 272
9.3.1 互聯(lián)網(wǎng)日志分析概述 272
9.3.2 挖掘分析技術(shù)方法 274
9.3.3 工具比較 275
9.3.4 海量數(shù)據(jù)挖掘過(guò)程展現(xiàn)與分析 276
9.3.5 行業(yè)應(yīng)用舉例 277
9.4 Python實(shí)戰(zhàn)案例 280
9.4.1 PageRank Python實(shí)現(xiàn) 280
9.4.2 跨境電商運(yùn)營(yíng)潛在市場(chǎng)選擇 282
9.4.3 天池“雙11”日志數(shù)據(jù)挖掘示例 286
習(xí)題 290
參考文獻(xiàn) 290