大數(shù)據(jù)分析原理和應(yīng)用
定 價:59 元
- 作者:海沫
- 出版時間:2023/4/1
- ISBN:9787121453113
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:248
- 紙張:
- 版次:01
- 開本:16開
本書從大數(shù)據(jù)分析的原理、技術(shù)和應(yīng)用的角度,圍繞著大數(shù)據(jù)分析的基礎(chǔ)知識、大數(shù)據(jù)分析平臺的核心原理、大數(shù)據(jù)分析的關(guān)鍵技術(shù)、大數(shù)據(jù)分析的應(yīng)用四個方面進行講述,使學(xué)生能掌握大數(shù)據(jù)分析的基本原理和核心技術(shù),同時通過大數(shù)據(jù)分析在上市公司信用風(fēng)險預(yù)測研究中的應(yīng)用案例使學(xué)生熟悉大數(shù)據(jù)分析的原理和技術(shù)的實際應(yīng)用,并能搭建大數(shù)據(jù)分析平臺分析大規(guī)模數(shù)據(jù)集。其中,大數(shù)據(jù)分析的基礎(chǔ)知識包括:大數(shù)據(jù)產(chǎn)生的背景、大數(shù)據(jù)的概念、特點、價值、大數(shù)據(jù)帶來的思維變革;大數(shù)據(jù)分析平臺的核心原理包括:兩種常用開源大數(shù)據(jù)分析平臺——Hadoop和Spark的起源、發(fā)展及應(yīng)用現(xiàn)狀,理解兩種平臺各自的體系架構(gòu)、基本運行機制及適用范圍,掌握其安裝部署過程及基本使用方法,為大數(shù)據(jù)分析的應(yīng)用打下基礎(chǔ);大數(shù)據(jù)分析的關(guān)鍵技術(shù)包括:Hadoop分布式文件系統(tǒng)、MapReduce并行編程模型、Hadoop 2.0的資源管理調(diào)度框架——YARN、大數(shù)據(jù)的獲取和預(yù)處理、大數(shù)據(jù)的聚類和分類算法。
海沫,博士。中央財經(jīng)大學(xué)信息學(xué)院副教授,碩士生導(dǎo)師,校級精品慕課《大數(shù)據(jù)分析原理與應(yīng)用》負責(zé)人,CCF高級會員。2008年7月畢業(yè)于中科院計算所,獲工學(xué)博士學(xué)位。2013年獲北京市青年英才計劃資助。2017年9月至2018年9月在美國加州大學(xué)爾灣分校Donald Bren School of Information and Computer Science訪學(xué)。主要從事對等網(wǎng)絡(luò)、分布式算法、大數(shù)據(jù)處理、社交網(wǎng)絡(luò)分析、區(qū)塊鏈網(wǎng)絡(luò)和機器學(xué)習(xí)等領(lǐng)域的研究,在國內(nèi)外核心期刊和國際會議上發(fā)表學(xué)術(shù)論文60余篇。近年來積極探索教學(xué)改革,主持或參與教改項目5項,發(fā)表教改論文5篇,參編教材3部。
第4章 MapReduce并行編程模型 83
4.1 MapReduce的概述 83
4.1.1 分布式并行編程 83
4.1.2 MapReduce的簡介 84
4.1.3 Map函數(shù)和Reduce函數(shù) 86
4.2 MapReduce的體系結(jié)構(gòu) 87
4.2.1 MapReduce 1.0體系結(jié)構(gòu)的總體框架 87
4.2.2 Hadoop 2.0的體系結(jié)構(gòu) 88
4.2.3 MapReduce的容錯性 89
4.3 MapReduce的工作流程 89
4.3.1 MapReduce工作流程的概述 89
4.3.2 MapReduce的執(zhí)行過程 90
4.3.3 Shuffle過程詳解 93
4.4 MapReduce的實例分析 99
4.4.1 WordCount 99
4.4.2 倒排索引 102
4.4.3 Top-K 106
4.5 MapReduce的編程實踐 107
4.5.1 任務(wù)要求 107
4.5.2 編寫Map處理邏輯 107
4.5.3 編寫Reduce處理邏輯 108
4.5.4 編寫main方法 109
4.5.5 實驗過程 109
4.6 MapReduce的優(yōu)缺點分析 113
4.6.1 MapReduce的優(yōu)點 113
4.6.2 MapReduce的缺點 113
4.7 本章小結(jié) 114
4.8 本章習(xí)題 114
第5章 Hadoop 2.0的資源管理調(diào)度框架——YARN 117
5.1 YARN的產(chǎn)生背景 117
5.1.1 MapReduce 1.0中存在的問題 117
5.1.2 YARN的產(chǎn)生 118
5.2 YARN的設(shè)計思路 119
5.3 YARN的體系結(jié)構(gòu) 120
5.3.1 YARN的體系結(jié)構(gòu)總體框架 120
5.3.2 YARN各組件功能的介紹 121
5.3.3 YARN的容錯性 122
5.4 YARN的工作流程 123
5.5 YARN的優(yōu)缺點分析 124
5.5.1 YARN的優(yōu)點 124
5.5.2 YARN的缺點 126
5.6 本章小結(jié) 126
5.7 本章習(xí)題 127
第6章 大數(shù)據(jù)的獲取和預(yù)處理 130
6.1 大數(shù)據(jù)的獲取 130
6.1.1 爬蟲的基礎(chǔ)知識 130
6.1.2 Scrapy爬蟲的原理與流程 139
6.1.3 Scrapy的爬蟲實例 141
6.2 數(shù)據(jù)清洗 146
6.2.1 數(shù)據(jù)清洗的概述 146
6.2.2 數(shù)據(jù)清洗的原理 146
6.2.3 數(shù)據(jù)清洗的流程 147
6.2.4 Pandas數(shù)據(jù)清洗的實例 148
6.3 數(shù)據(jù)歸約 153
6.3.1 維歸約 154
6.3.2 屬性選擇 154
6.3.3 離散化方法 155
6.3.4 PCA的實例 155
6.4 數(shù)據(jù)標準化 158
6.4.1 數(shù)據(jù)標準化的概念 158
6.4.2 數(shù)據(jù)標準化的方法 158
6.4.3 數(shù)據(jù)標準化的實例 159
6.5 本章小結(jié) 161
6.6 習(xí)題 162
第7章 大數(shù)據(jù)分析算法 163
7.1 聚類算法 163
7.1.1 經(jīng)典聚類算法 163
7.1.2 大數(shù)據(jù)聚類算法的應(yīng)用 184
7.2 分類算法 188
7.2.1 經(jīng)典分類算法 188
7.2.2 大數(shù)據(jù)分類算法的應(yīng)用 215
7.3 本章小結(jié) 219
7.4 習(xí)題 220
第8章 大數(shù)據(jù)分析的應(yīng)用案例 221
8.1 案例背景 221
8.2 數(shù)據(jù)獲取和預(yù)處理 222
8.2.1 獲取來源 222
8.2.2 數(shù)據(jù)說明 222
8.2.3 數(shù)據(jù)預(yù)處理 223
8.3 評價指標說明 226
8.4 基于Python的實現(xiàn) 227
8.4.1 基于Python的邏輯回歸 227
8.4.2 基于Python的SVM 229
8.4.3 基于Python的樸素貝葉斯 231
8.4.4 基于Python的決策樹 232
8.4.5 基于Python的隨機森林 234
8.5 基于Spark的實現(xiàn) 236
8.5.1 基于Spark的邏輯回歸 236
8.5.2 基于Spark的SVM 237
8.6 實驗結(jié)果分析 238
8.7 本章小結(jié) 239
8.8 習(xí)題 239