本書是高校的大數據導論課程教材,清楚地介紹了大數據相關的概念、理論、術語與基礎技術,并使用真實連貫的商業(yè)案例以及簡單的圖表,幫助讀者更清晰地理解大數據技術。本書可作為高等院校相關專業(yè)“大數據基礎”“大數據導論”等課程的教材,也可供有一定實踐經驗的軟件開發(fā)人員、管理人員和所有對大數據感興趣的人士閱讀。
1.囊括大數據的基本知識,也介紹了大數據與云計算、人工智能的關系
2.提供PPT等教學資源
安俊秀畢業(yè)于西安交通大學計算機科學與技術專業(yè),獲工學碩士學位。中國計算機學會高級會員;中國電子學會高級會員;成都市科技攻關計劃評審專家;成都軍區(qū)項目評審專家;汕尾市科技顧問團首席顧問。 先后承擔了《Linux體系和編程》、《軟件項目管理》、《工程導論》、《計算機組成原理》等本科課程;承擔了《云計算與大數據》、《并行計算》、《Hadoop處理技術》等研究生課程。 在科研方面,一直從事云計算與大數據、信息智能搜索與計算社會方面的研究工作。近三年發(fā)表論文20余篇,其中第一作者10余篇,核心期刊以上占5篇。編寫出版了多本教材。
第1章 大數據概述 1
1.1 什么是大數據 1
1.1.1 大數據的來源 1
1.1.2 大數據的定義 5
1.1.3 從信息技術(IT)轉向數據
技術(DT) 5
1.2 大數據的數據特征及對科學研究的
影響 7
1.2.1 大數據的數據特征 7
1.2.2 大數據對科學研究的影響 8
1.3 大數據的數據類型 11
1.4 大數據的價值及相關技術 13
1.4.1 大數據的可用性及衍生
價值 13
1.4.2 大數據存儲及處理技術 14
1.5 大數據的發(fā)展趨勢 15
習題 16
第2章 大數據與云計算 17
2.1 云計算概述 17
2.1.1 云計算的提出 17
2.1.2 云計算的定義 18
2.1.3 云計算的概念模型 19
2.1.4 云計算的特點 20
2.2 云計算的主要部署模式 21
2.2.1 公有云 22
2.2.2 私有云 22
2.2.3 混合云 23
2.3 云計算的主要服務模式 24
2.3.1 基礎設施即服務(IaaS) 24
2.3.2 平臺即服務(PaaS) 26
2.3.3 軟件即服務(SaaS) 26
2.3.4 3種服務模式之間的關系 27
2.4 云計算與大數據體系架構的關系 28
2.4.1 云計算基礎設施—
Google平臺 28
2.4.2 大數據基礎設施—
Hadoop平臺 29
2.5 物聯網、大數據和云計算之間的
關系 30
2.5.1 認識物聯網 31
2.5.2 邊緣計算 31
2.5.3 霧計算 33
2.5.4 大數據和云計算之間的
關系 33
習題 34
第3章 從產業(yè)結構來探索大數據技術 35
3.1 大數據產業(yè)結構概述 35
3.2 大數據的解決方案 37
3.2.1 大數據的產生、采集與處理
方式 37
3.2.2 大數據處理的基本流程及
相應技術 40
3.3 大數據采集技術 43
3.3.1 大數據采集概述 43
3.3.2 日志采集系統—Flume 44
3.3.3 消息采集系統—Kafka 46
3.3.4 Scrapy網絡爬蟲框架 47
3.4 大數據預處理技術 50
3.4.1 數據預處理 50
3.4.2 數據清洗 51
3.4.3 數據集成 53
3.4.4 數據歸約 54
3.5 大數據可視化技術 56
3.5.1 數據可視化的概念 56
3.5.2 數據可視化的分類 57
3.5.3 數據可視化工具 61
3.5.4 大數據可視化技術的
發(fā)展方向 63
習題 64
第4章 大數據的硬件架構——集群 65
4.1 集群的來源 65
4.1.1 并行計算機的發(fā)展 65
4.1.2 通過計算機食物鏈理解
集群 68
4.2 集群的產生促進了大數據技術的
發(fā)展 70
4.3 集群系統的概念及分類 72
4.3.1 集群的基本概念 72
4.3.2 集群系統的分類 73
4.4 集群的結構模型 75
4.5 集群文件系統 76
習題 79
第5章 大數據開發(fā)與計算技術 80
5.1 Hadoop—分布式大數據系統 80
5.1.1 Hadoop概述 80
5.1.2 Hadoop架構 81
5.1.3 Hadoop生態(tài)系統 87
5.2 Spark—大規(guī)模數據實時處理
系統 89
5.2.1 Spark概述 89
5.2.2 彈性分布式數據集 94
5.2.3 Spark擴展功能 96
5.3 Storm—基于拓撲的流數據實時
計算系統 99
5.3.1 Storm概述 99
5.3.2 Storm的組成結構 101
5.3.3 Storm-Yarn概述 102
5.4 Hadoop、Spark與Storm的比較 103
5.5 大數據開發(fā)技術與Web應用
開發(fā)技術的比較 105
5.5.1 Web應用開發(fā)技術簡介 105
5.5.2 大數據開發(fā)技術簡介 109
5.5.3 大數據開發(fā)技術與Web應用
開發(fā)技術的應用環(huán)境 110
習題 112
第6章 大數據存儲技術 113
6.1 數據存儲概述 113
6.2 分布式文件系統 115
6.2.1 分布式文件系統的設計
思路 116
6.2.2 最早的分布式文件系統 118
6.2.3 大數據環(huán)境下分布式文件
系統的優(yōu)化思路 119
6.3 結構化大數據的存儲—Hive 120
6.3.1 Hive簡介 120
6.3.2 Hive架構 121
6.3.3 Hive數據模型與存儲 122
6.4 半結構化大數據的存儲—HBase 124
6.4.1 HBase簡介 124
6.4.2 HBase數據模型 125
6.4.3 存儲架構 127
6.5 云存儲技術 134
6.5.1 云存儲的概念及特性 134
6.5.2 云存儲系統的結構模型 136
6.5.3 云存儲的應用 138
習題 139
第7章 大數據分析 141
7.1 大數據分析與數據分析的關系 141
7.1.1 對數據分析師的要求 142
7.1.2 對大數據分析師的要求 142
7.2 大數據分析的重要性及認識數據 143
7.2.1 大數據分析的重要性 143
7.2.2 認識數據 145
7.3 統計數據分析 147
7.4 基于機器學習的數據分析 151
7.4.1 機器學習簡介 151
7.4.2 機器學習的主要用途 153
7.4.3 有監(jiān)督學習、無監(jiān)督學習和
強化學習 154
7.5 經典的機器學習算法 157
7.5.1 分類算法原理 157
7.5.2 決策樹分類算法 157
7.5.3 K-均值聚類算法 158
7.5.4 Apriori關聯規(guī)則算法 159
7.5.5 樸素貝葉斯分類算法 159
7.6 基于圖的數據分析 161
7.7 基于自然語言的數據分析 162
習題 163
第8章 大數據與人工智能 164
8.1 人工智能的概念及分類 164
8.2 人工智能的發(fā)展史 168
8.3 限制人工智能發(fā)展的因素 170
8.4 大數據與人工智能的關系 172
8.5 人工智能核心技術概述 173
8.5.1 深度學習 174
8.5.2 卷積神經網絡 175
8.5.3 圖像處理 176
8.6 人工智能技術應用 177
習題 179
參考文獻 180