本書是學(xué)習(xí)大數(shù)據(jù)技術(shù)的入門教材,深入淺出地介紹了什么是大數(shù)據(jù)、大數(shù)據(jù)的價值及應(yīng)用、大數(shù)據(jù)的架構(gòu)、大數(shù)據(jù)的采集及預(yù)處理、大數(shù)據(jù)的存儲、大數(shù)據(jù)分析、大數(shù)據(jù)可視化等,為學(xué)生提供在實(shí)踐中解決大數(shù)據(jù)相關(guān)問題的思路和方法。本書貫徹理論精簡的原則,注重科普性,突出實(shí)用性,可作為職業(yè)院校相關(guān)專業(yè)的選修課教材,也可供大數(shù)據(jù)技術(shù)初學(xué)者及有關(guān)技術(shù)人員閱讀。
余戰(zhàn)秋,高級講師,任教于安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,出版過多本職業(yè)教育教材;蔡政策,高級講師,任教于安徽國際商務(wù)職業(yè)學(xué)院。
第1章 大數(shù)據(jù)概述 1
1.1 大數(shù)據(jù)是什么 1
1.1.1 大數(shù)據(jù)是怎么來的 1
1.1.2 大數(shù)據(jù)的定義與特征 4
1.1.3 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)、互聯(lián)網(wǎng)之間的關(guān)系 5
1.2 大數(shù)據(jù)的意義及挑戰(zhàn) 7
1.2.1 研究大數(shù)據(jù)的意義 7
1.2.2 大數(shù)據(jù)的異構(gòu)性和不完備性 10
1.2.3 數(shù)據(jù)處理的時效性 10
1.2.4 數(shù)據(jù)安全與隱私保護(hù) 11
1.2.5 大數(shù)據(jù)的能耗 12
1.2.6 大數(shù)據(jù)管理易用性 12
1.3 大數(shù)據(jù)技術(shù)及應(yīng)用 13
1.3.1 大數(shù)據(jù)技術(shù)框架 13
1.3.2 大數(shù)據(jù)處理工具和技術(shù)發(fā)展趨勢 17
1.3.3 大數(shù)據(jù)的應(yīng)用 19
【思考題】 25
第2章 大數(shù)據(jù)的架構(gòu) 26
2.1 大數(shù)據(jù)平臺架構(gòu)簡介 26
2.1.1 傳統(tǒng)計(jì)算方式的數(shù)據(jù)瓶頸 26
2.1.2 大數(shù)據(jù)處理平臺的技術(shù)架構(gòu) 27
2.1.3 主流大數(shù)據(jù)架構(gòu) 32
2.2 Hadoop體系架構(gòu) 37
2.2.1 Hadoop體系架構(gòu)簡介 37
2.2.2 Hadoop的應(yīng)用 48
2.2.3 Hadoop MapReduce的應(yīng)用 50
2.2.4 Hadoop MapReduce應(yīng)用實(shí)例 58
【思考題】 74
第3章 大數(shù)據(jù)的采集及預(yù)處理 75
3.1 大數(shù)據(jù)采集 75
3.1.1 大數(shù)據(jù)采集簡介 75
3.1.2 常用大數(shù)據(jù)采集工具 81
3.1.3 常用的數(shù)據(jù)采集方法 88
3.1.4 Kafka概述 91
3.1.5 Kafka安裝及使用 94
3.2 數(shù)據(jù)預(yù)處理 100
3.2.1 數(shù)據(jù)清洗 100
3.2.2 數(shù)據(jù)集成 104
3.2.3 數(shù)據(jù)變換 106
3.3 ETL技術(shù)及其工具 108
3.3.1 數(shù)據(jù)倉庫技術(shù)ETL 108
3.3.2 常用ETL工具 111
3.3.3 Kettle 113
【思考題】 120
第4章 大數(shù)據(jù)的存儲 121
4.1 大數(shù)據(jù)的存儲方式 121
4.1.1 大數(shù)據(jù)存儲綜述 121
4.1.2 數(shù)據(jù)的存儲方法 125
4.1.3 大數(shù)據(jù)的基礎(chǔ)設(shè)施 128
4.1.4 大數(shù)據(jù)文件存儲方式 136
4.1.5 大數(shù)據(jù)存儲的特點(diǎn)及技術(shù)路線 142
4.2 數(shù)據(jù)倉庫及開發(fā)模型 144
4.2.1 數(shù)據(jù)倉庫簡介 144
4.2.2 數(shù)據(jù)倉庫模型設(shè)計(jì) 149
【思考題】 161
第5章 大數(shù)據(jù)分析 163
5.1 大數(shù)據(jù)分析概述 163
5.1.1 數(shù)據(jù)分析的概念和分類 164
5.1.2 大數(shù)據(jù)存在模式與結(jié)構(gòu)大數(shù)據(jù) 167
5.1.3 大數(shù)據(jù)分析與數(shù)據(jù)分析的區(qū)別 169
5.1.4 大數(shù)據(jù)分析的背景及挑戰(zhàn) 170
5.2 大數(shù)據(jù)分析工具及方法 170
5.2.1 大數(shù)據(jù)分析工具及手段 170
5.2.2 大數(shù)據(jù)分析方法 175
5.3 數(shù)據(jù)挖掘 192
5.3.1 數(shù)據(jù)挖掘概述 192
5.3.2 數(shù)據(jù)挖掘工具 194
【思考題】 199
第6章 大數(shù)據(jù)可視化 200
6.1 數(shù)據(jù)可視化概述 200
6.2 大數(shù)據(jù)可視化的實(shí)現(xiàn) 204
6.2.1 數(shù)據(jù)可視化方式 204
6.2.2 大數(shù)據(jù)可視化模式及應(yīng)用 210
6.2.3 大數(shù)據(jù)可視化方法 210
6.2.4 大數(shù)據(jù)可視化的設(shè)計(jì) 217
6.3 主流大數(shù)據(jù)可視化工具及應(yīng)用 220
6.3.1 Excel及應(yīng)用 220
6.3.2 Processing及應(yīng)用 221
6.3.3 NodeXL及應(yīng)用 235
【思考題】 240
參考文獻(xiàn) 241