本書圍繞新工科背景下大數(shù)據(jù)人才培養(yǎng)需求編寫,系統(tǒng)介紹了大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)處理與分析、大數(shù)據(jù)可視化處理流程;重點(diǎn)分析了科大訊飛大數(shù)據(jù)平臺在政務(wù)、交通、金融和用戶畫像等實(shí)際場景中的應(yīng)用,還介紹了大數(shù)據(jù)實(shí)驗(yàn)環(huán)境的詳細(xì)搭建步驟;最后介紹了大數(shù)據(jù)治理中法律政策、行業(yè)標(biāo)準(zhǔn)建設(shè)的最新進(jìn)展,分析了大數(shù)據(jù)可能帶來的倫理風(fēng)險(xiǎn)和應(yīng)對策略。
本書將大數(shù)據(jù)基礎(chǔ)理論與實(shí)際案例結(jié)合,輔以編程實(shí)踐和有針對性的課后習(xí)題,可作為高等院校相關(guān)專業(yè)的導(dǎo)論課教材,也可作為大數(shù)據(jù)相關(guān)從業(yè)人員技術(shù)參考書。
于俊偉簡介:
于俊偉,男,1980年5月生,博士,副教授,碩士生導(dǎo)師,2010年畢業(yè)于中國科學(xué)院自動化研究所,現(xiàn)任職河南工業(yè)大學(xué)人工智能與大數(shù)據(jù)學(xué)院,主要從事計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)等方向的研究和教學(xué)工作。主持國家自然科學(xué)基金、河南省重點(diǎn)研發(fā)與推廣專項(xiàng)、河南省高校重點(diǎn)科研項(xiàng)目等多項(xiàng)科研項(xiàng)目,發(fā)表學(xué)術(shù)論文10余篇,主持翻譯與編著數(shù)據(jù)科學(xué)、計(jì)算機(jī)視覺等方面著作5部。
母亞雙簡介:
母亞雙,男,1987年04月生,博士,碩士生導(dǎo)師,現(xiàn)就職于河南工業(yè)大學(xué)人工智能與大數(shù)據(jù)學(xué)院,河南工業(yè)大學(xué)大數(shù)據(jù)分析處理科研團(tuán)隊(duì)負(fù)責(zé)人。主要從事機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析與處理等方向的研究。近年來,主持國家自然科學(xué)基金項(xiàng)目1項(xiàng),河南省科技攻關(guān)項(xiàng)目1項(xiàng),教育部糧食信息處理與控制重點(diǎn)實(shí)驗(yàn)室開放課題1項(xiàng),河南工業(yè)大學(xué)青年骨干教師資助項(xiàng)目1項(xiàng);參與國家自然科學(xué)基金面上項(xiàng)目2項(xiàng),國家自然科學(xué)基金青年項(xiàng)目1項(xiàng),省部級以上項(xiàng)目多項(xiàng),企事業(yè)單位橫向課題多項(xiàng);在《Pattern Recognition》《Information Science》等重要學(xué)術(shù)期刊和國際會議上發(fā)表論文二十余篇;申請國家發(fā)明專利2項(xiàng)。
閆秋玲簡介:
閆秋玲,1981年2月生,博士,講師。研究方向是數(shù)據(jù)挖掘。以第一作者發(fā)表論文5篇,發(fā)明專利授權(quán)一項(xiàng)。主持河南省科技攻關(guān)項(xiàng)目一項(xiàng),河南省教育廳自然科學(xué)項(xiàng)目一項(xiàng)。主編教材《大學(xué)計(jì)算機(jī)基礎(chǔ)》,參與翻譯教材《數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)》《人工智能》。
第 1 章? 大數(shù)據(jù)概述 ……………………………… 1
1.1 大數(shù)據(jù)的產(chǎn)生及其特征 ……………………………… 2
1.1.1 大數(shù)據(jù)的產(chǎn)生 ………………………………………………… 2
1.1.2 大數(shù)據(jù)的特征 ………………………………………………… 2
1.2 大數(shù)據(jù)發(fā)展 …………………………………………… 5
1.2.1 大數(shù)據(jù)發(fā)展歷程 ……………………………………………… 5
1.2.2 國外大數(shù)據(jù)戰(zhàn)略 ……………………………………………… 6
1.2.3 中國大數(shù)據(jù)戰(zhàn)略與政策 ……………………………………… 7
1.2.4 大數(shù)據(jù)立法和標(biāo)準(zhǔn) …………………………………………… 8
1.3 大數(shù)據(jù)思維 …………………………………………… 9
1.3.1 大數(shù)據(jù)的價(jià)值 ………………………………………………… 9
1.3.2 大數(shù)據(jù)的思維變革 …………………………………………… 11
1.4 大數(shù)據(jù)應(yīng)用 …………………………………………… 13
1.4.1 大數(shù)據(jù)應(yīng)用層次 ……………………………………………… 13
1.4.2 大數(shù)據(jù)應(yīng)用領(lǐng)域 ……………………………………………… 13
1.5 大數(shù)據(jù)技術(shù)與工具 …………………………………… 15
1.5.1 大數(shù)據(jù)處理流程 ……………………………………………… 15
1.5.2 大數(shù)據(jù)行業(yè)全景圖 …………………………………………… 16
1.5.3 大數(shù)據(jù)分析平臺 ……………………………………………… 17
1.5.4 大數(shù)據(jù)編程語言 ……………………………………………… 19
1.6 本章小結(jié) ……………………………………………… 20
1.7 習(xí)題 …………………………………………………… 21
第 2 章? 大數(shù)據(jù)采集與預(yù)處理 …………………… 22
2.1 概述 …………………………………………………… 23
2.2 大數(shù)據(jù)的來源 ………………………………………… 24
2.3 大數(shù)據(jù)的采集方法 …………………………………… 25
2.3.1 數(shù)據(jù)庫采集 …………………………………………………… 26
2.3.2 系統(tǒng)日志采集 ………………………………………………… 26
2.3.3 網(wǎng)絡(luò)數(shù)據(jù)采集 ………………………………………………… 26
2.3.4 其他數(shù)據(jù)采集 ………………………………………………… 27
2.4 大數(shù)據(jù)預(yù)處理方法 …………………………………… 28
2.4.1 數(shù)據(jù)清洗 ……………………………………………………… 28
2.4.2 數(shù)據(jù)集成 ……………………………………………………… 31
2.4.3 數(shù)據(jù)變換 ……………………………………………………… 31
2.5 大數(shù)據(jù)采集與預(yù)處理工具 …………………………… 33
2.5.1 網(wǎng)絡(luò)爬蟲 Scrapy …………………………………………… 33
2.5.2 流數(shù)據(jù)采集 Kafka …………………………………………… 37
2.5.3 ETL 工具 Kettle ……………………………………………… 39
2.6 本章小結(jié) ……………………………………………… 44
2.7 習(xí)題 …………………………………………………… 45
第 3 章? 大數(shù)據(jù)存儲與管理技術(shù) ………………… 46
3.1 大數(shù)據(jù)存儲與管理技術(shù)概述 ………………………… 47
3.2 分布式文件系統(tǒng) ……………………………………… 47
3.2.1 HDFS ………………………………………………………… 48
3.2.2 Ceph ………………………………………………………… 54
3.2.3 GlusterFS …………………………………………………… 56
3.3 NoSQL 數(shù)據(jù)庫 ……………………………………… 58
3.3.1 鍵值數(shù)據(jù)庫 …………………………………………………… 59
3.3.2 列族數(shù)據(jù)庫 …………………………………………………… 60
3.3.3 文檔數(shù)據(jù)庫 …………………………………………………… 63
3.3.4 圖數(shù)據(jù)庫 ……………………………………………………… 63
3.4 大數(shù)據(jù)查詢系統(tǒng) ……………………………………… 64
3.4.1 大數(shù)據(jù)查詢系統(tǒng)概述 ………………………………………… 64
3.4.2 Dremel ……………………………………………………… 65
3.5 數(shù)據(jù)倉庫 ……………………………………………… 66
3.5.1 數(shù)據(jù)倉庫的特點(diǎn) ……………………………………………… 66
3.5.2 關(guān)系型數(shù)據(jù)倉庫體系結(jié)構(gòu) …………………………………… 68
3.5.3 數(shù)據(jù)倉庫 Hive ……………………………………………… 69
3.5.4 數(shù)據(jù)倉庫 Impala …………………………………………… 71
3.6 本章小結(jié) ……………………………………………… 73
3.7 習(xí)題 …………………………………………………… 73
第 4 章? 大數(shù)據(jù)處理與分析系統(tǒng) ………………… 75
4.1 概述 …………………………………………………… 76
4.2 谷歌大數(shù)據(jù)處理系統(tǒng) ………………………………… 76
4.2.1 GFS…………………………………………………………… 76
4.2.2 MapReduce ………………………………………………… 78
4.2.3 BigTable ……………………………………………………… 78
4.3 分布式計(jì)算框架 Hadoop MapReduce …………… 79
4.3.1 Hadoop MapReduce 概述 ………………………………… 79
4.3.2 Hadoop MapReduce 應(yīng)用舉例 …………………………… 81
4.4.1 Spark 簡介 …………………………………………………… 85
4.4 快速計(jì)算框架 Spark ………………………………… 85
4.4.2 Spark 運(yùn)行架構(gòu) ……………………………………………… 88
4.4.3 Spark 的部署方式 …………………………………………… 88
4.4.4 Spark 的數(shù)據(jù)抽象 RDD …………………………………… 89
4.4.5 Spark MLlib ………………………………………………… 90
4.4.6 Spark Streaming …………………………………………… 91
4.4.7 Spark SQL …………………………………………………… 93
4.4.8 Spark GraphX ……………………………………………… 94
4.5 其他大數(shù)據(jù)分析系統(tǒng) ………………………………… 96
4.5.1 圖計(jì)算系統(tǒng) Pregel…………………………………………… 97
4.5.2 流處理系統(tǒng) Flink …………………………………………… 98
4.6 本章小結(jié) ……………………………………………… 99
4.7 習(xí)題 …………………………………………………… 99
第 5 章? 大數(shù)據(jù)機(jī)器學(xué)習(xí) ………………………… 100
5.1.1 機(jī)器學(xué)習(xí)的定義 ……………………………………………… 101
5.1.2 機(jī)器學(xué)習(xí)的分類 ……………………………………………… 101
5.1 機(jī)器學(xué)習(xí)簡介 ………………………………………… 101
5.1.3 機(jī)器學(xué)習(xí)的歷史 ……………………………………………… 104
5.1.4 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系 ………………………………… 108
5.2 數(shù)據(jù) …………………………………………………… 109
5.2.1 數(shù)據(jù)概述 ……………………………………………………… 109
5.2.2 帶有標(biāo)簽的數(shù)據(jù)和不帶標(biāo)簽的數(shù)據(jù) ………………………… 109
5.2.3 訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)、驗(yàn)證數(shù)據(jù) …………………………… 110
5.3 有監(jiān)督學(xué)習(xí) …………………………………………… 111
5.3.1 有監(jiān)督學(xué)習(xí)簡介 ……………………………………………… 111
5.3.2 回歸 …………………………………………………………… 111
5.3.3 分類 …………………………………………………………… 114
5.3.4 常見的有監(jiān)督學(xué)習(xí)方法 ……………………………………… 116
5.4 無監(jiān)督學(xué)習(xí) …………………………………………… 121
5.4.1 無監(jiān)督學(xué)習(xí)簡介 ……………………………………………… 121
5.4.2 聚類 …………………………………………………………… 121
5.4.3 關(guān)聯(lián)分析 ……………………………………………………… 124
5.5 強(qiáng)化學(xué)習(xí) ……………………………………………… 125
5.5.1 強(qiáng)化學(xué)習(xí)簡介 ………………………………………………… 125
5.5.2 強(qiáng)化學(xué)習(xí)主流算法 …………………………………………… 127
5.5.3 強(qiáng)化學(xué)習(xí)的使用場景 ………………………………………… 128
5.6 弱監(jiān)督學(xué)習(xí) …………………………………………… 129
5.6.1 弱監(jiān)督學(xué)習(xí)簡介 ……………………………………………… 129
5.6.2 弱監(jiān)督學(xué)習(xí)的分類 …………………………………………… 129
5.7 機(jī)器學(xué)習(xí)的相關(guān)資源與工具 ………………………… 130
5.8 本章小結(jié) ……………………………………………… 132
5.9 習(xí)題 …………………………………………………… 133
第 6 章? 數(shù)據(jù)可視化 ……………………………… 134
6.1 可視化概述 …………………………………………… 135
6.1.1 可視化的含義 ………………………………………………… 135
6.1.2 可視化的發(fā)展歷程 …………………………………………… 135
6.1.3 可視化的作用 ………………………………………………… 136
6.2 數(shù)據(jù)可視化及其分類 ………………………………… 137
6.2.1 科學(xué)可視化 …………………………………………………… 137
6.2.2 信息可視化 …………………………………………………… 138
6.2.3 可視化分析學(xué) ………………………………………………… 139
6.3 數(shù)據(jù)可視化工具 ……………………………………… 140
6.3.1 入門級工具 …………………………………………………… 140
6.3.2 信息圖表工具 ………………………………………………… 140
6.3.3 地圖工具 ……………………………………………………… 143
6.3.4 基于編程語言的可視化庫 …………………………………… 144
6.4 本章小結(jié) ……………………………………………… 146
6.5 習(xí)題 …………………………………………………… 146
第 7 章? 大數(shù)據(jù)行業(yè)應(yīng)用案例 …………………… 147
7.1 大數(shù)據(jù)行業(yè)應(yīng)用概述 ………………………………… 148
7.2 政務(wù)大數(shù)據(jù) …………………………………………… 148
7.3 交通大數(shù)據(jù) …………………………………………… 152
7.3.1 人群生活模式劃分 …………………………………………… 153
7.3.2 道路擁堵模式預(yù)測 …………………………………………… 158
7.4 征信大數(shù)據(jù) …………………………………………… 162
7.4.1 企業(yè)征信大數(shù)據(jù)應(yīng)用 ………………………………………… 162
7.4.2 企業(yè)法人資產(chǎn)建模實(shí)踐 ……………………………………… 171
7.5 畫像大數(shù)據(jù) …………………………………………… 173
7.5.1 用戶畫像概述 ………………………………………………… 173
7.5.2 構(gòu)建用戶畫像流程 …………………………………………… 175
7.5.3 構(gòu)建用戶畫像 ………………………………………………… 178
7.5.4 用戶畫像評估和使用 ………………………………………… 183
7.6 本章小結(jié) ……………………………………………… 184
7.7 習(xí)題 …………………………………………………… 185
第 8 章? 大數(shù)據(jù)平臺與實(shí)驗(yàn)環(huán)境 ………………… 186
8.1 大數(shù)據(jù)平臺與環(huán)境概述 ……………………………… 187
8.1.1 大數(shù)據(jù)平臺簡介 ……………………………………………… 187
8.1.2 搭建環(huán)境簡介 ………………………………………………… 189
8.2 安裝虛擬機(jī) …………………………………………… 189
8.3 在虛擬機(jī)中安裝 Linux 系統(tǒng) ………………………… 192
8.4 為 Ubuntu 系統(tǒng)配置 Java 開發(fā)環(huán)境 ……………… 194
8.5 在 Ubuntu 系統(tǒng)中安裝 Hadoop …………………… 200
8.5.1 查詢和更改主機(jī)名 …………………………………………… 201
8.5.2 更改 host 文件 ……………………………………………… 202
8.5.3 認(rèn)證 SSH 實(shí)現(xiàn)無密碼登錄 ………………………………… 203
8.5.4 復(fù)制 Hadoop 2.6.0 到指定目錄并解壓 …………………… 205
8.5.5 配置文件 ……………………………………………………… 206
8.5.7 啟動、驗(yàn)證和關(guān)閉 Hadoop ………………………………… 214
8.6 安裝 Eclipse 和 Eclipse-hadoop-plugin ……… 217
8.6.1 安裝 Eclipse ………………………………………………… 217
8.6.2 配置 Eclipse-hadoop-plugin………………………………… 217
8.7 新建、導(dǎo)入、運(yùn)行與調(diào)試 Hadoop 工程…………… 219
8.7.1 新建 Hadoop 工程…………………………………………… 219
8.7.2 導(dǎo)入已有的 Hadoop 工程…………………………………… 220
8.7.3 運(yùn)行 Hadoop 工程…………………………………………… 222
8.7.4 調(diào)試 Hadoop 工程…………………………………………… 226
8.8 本章小結(jié) ……………………………………………… 229
8.9 習(xí)題 …………………………………………………… 229
第 9 章? 大數(shù)據(jù)治理 ……………………………… 230
9.1 大數(shù)據(jù)治理體系 ……………………………………… 231
9.2 大數(shù)據(jù)法律政策 ……………………………………… 232
9.3 大數(shù)據(jù)行業(yè)標(biāo)準(zhǔn) ……………………………………… 234
9.4 大數(shù)據(jù)治理內(nèi)容 ……………………………………… 237
9.5 大數(shù)據(jù)倫理風(fēng)險(xiǎn) ……………………………………… 240
9.6 本章小結(jié) ……………………………………………… 243
9.7 習(xí)題 …………………………………………………… 243
主要參考文獻(xiàn)………………………………………………… 244