定 價:24.8 元
叢書名:普通高等教育人工智能與大數(shù)據(jù)系列教材
- 作者:李建敦
- 出版時間:2021/9/1
- ISBN:9787111687375
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本著以小見大、實踐為先的理念,在工業(yè)大數(shù)據(jù)的背景下,本書闡述了數(shù)據(jù)的前世今生與內涵、外延,深入淺出地梳理了數(shù)據(jù)處理的各個階段及典型框架,內容包括大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析與可視化等,同時還介紹了大數(shù)據(jù)技術的典型應用。
本書注重學科基礎上的知識體系與實踐能力,適合作為數(shù)據(jù)科學相關專業(yè)學生的導論教材,也可作為信息類其他專業(yè)學生的通識教材,以培養(yǎng)學生的數(shù)據(jù)思維意識。
大數(shù)據(jù)科學是信息浪潮,是科學范式,更是發(fā)展機遇。正如摩爾定律,信息領域的發(fā)展同樣具有周期性,前IBM首席執(zhí)行官郭士納認為是15年。如果說以信息處理重大突破為標志的個人計算機的誕生與發(fā)展是信息化的首次浪潮,以信息共通共享為標志的互聯(lián)網(wǎng)的發(fā)明與應用是第二次浪潮,那么以信息爆炸與智能利用為標志的大數(shù)據(jù)就是信息化的第三次浪潮。圖靈獎獲得者吉姆?格雷(Jim Gray)甚至強調,大數(shù)據(jù)是繼實驗、理論、計算后的科學第四范式?v觀全球,重視大數(shù)據(jù)、利用大數(shù)據(jù)已經(jīng)得到全球大多數(shù)國家的認同,在各行各業(yè)都涌現(xiàn)出了一批又一批成功案例,我們沒有理由不抓住這個發(fā)展良機,以促進富民強國。在數(shù)據(jù)蠻荒的當下,無論是人才、技術還是應用,與發(fā)達國家相比,我們都未處于明顯劣勢,更應擼起袖子、甩開膀子、邁開步子以助力民族復興。
大數(shù)據(jù)專業(yè)人才是發(fā)展數(shù)據(jù)科學的要素。作為前沿科學,特別是能夠改善各個行業(yè)面貌的交叉科學,大數(shù)據(jù)人才稀缺的狀況在全球都非常普遍,尤其是互聯(lián)網(wǎng)企業(yè)占有相當比重的我國。預測顯示,2025年前我國大數(shù)據(jù)人才缺口將達到200萬。其中,具有豐富操作經(jīng)驗的應用技術型人才,特別是非結構化、半結構化數(shù)據(jù)處理類人才的空缺,將逐年激增。為了有效應對,截至2020年3月,經(jīng)教育部批準,486所本科院校開設了數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè),而如何辦好這個新型專業(yè)也是我們面臨的挑戰(zhàn)。面對挑戰(zhàn)希望本書能夠引導學生、激勵學生步入大數(shù)據(jù)殿堂,感受第四范式之美。
大數(shù)據(jù)專業(yè)人才的培養(yǎng)不能搞大而全,要精準定位。當前,在開源社區(qū)的推動下,大到數(shù)據(jù)生態(tài)小到處理方法,如何利用大數(shù)據(jù)以指導實踐早已不再是秘密。然而,由于行業(yè)的特殊性,如何設計與實現(xiàn)符合業(yè)務要求的大數(shù)據(jù)方案,卻沒有公式。同時,由于數(shù)據(jù)科學的內在挑戰(zhàn)及其當前的發(fā)展現(xiàn)狀,在四年內培養(yǎng)全面的大數(shù)據(jù)專業(yè)人才并不現(xiàn)實,而整齊劃一地向數(shù)據(jù)科學家高地沖鋒更會造成嚴重的人才失衡。本書面向工業(yè)大數(shù)據(jù),在全面闡述大數(shù)據(jù)生命周期及治理方案的同時,期望能為該領域大數(shù)據(jù)人才的特色培養(yǎng)提供一定參考。
本書第1章闡述大數(shù)據(jù)的基本概念及其處理框架,第2章介紹大數(shù)據(jù)學科及其專業(yè)人才培養(yǎng)體系,第3章概述Hadoop、Spark與Storm等處理框架,第4章詳述大數(shù)據(jù)采集與預處理技術,第5章介紹大數(shù)據(jù)存儲技術,第6章深入闡述多種大數(shù)據(jù)分析方法,第7章關注大數(shù)據(jù)可視化,第8章展示大數(shù)據(jù)的兩個典型應用。其中第1章由肖薇編寫,第2章由余翔編寫,第3、8章由李建敦編寫,第4章由覃海煥編寫,第5章由李宇佳編寫,第6章由呂品編寫,第7章由汪鑫編寫。本書由李建敦負責統(tǒng)稿,由計春雷主審。
由于作者學識有限,書中難免存在不足之處,敬請諸位專家與廣大讀者批評指正。
作 者
目 錄
前 言
第1章 認識大數(shù)據(jù) 1
1.1 信息爆炸 1
1.1.1 大數(shù)據(jù)時代 1
1.1.2 數(shù)據(jù)、信息與知識 2
1.1.3 數(shù)據(jù)的來源 3
1.2 大數(shù)據(jù)的概念與特征 4
1.2.1 大數(shù)據(jù)的概念 4
1.2.2 大數(shù)據(jù)的特征 4
1.2.3 大數(shù)據(jù)的類型 5
1.3 大數(shù)據(jù)的技術架構及處理技術 6
1.3.1 大數(shù)據(jù)的技術架構 6
1.3.2 大數(shù)據(jù)的處理技術 7
1.4 大數(shù)據(jù)處理的集成平臺 7
1.5 工業(yè)大數(shù)據(jù) 8
1.5.1 工業(yè)大數(shù)據(jù)及其特征 8
1.5.2 工業(yè)大數(shù)據(jù)技術及應用 9
1.5.3 工業(yè)大數(shù)據(jù)面臨的挑戰(zhàn) 10
本章小結 12
閱讀材料:啤酒與尿布 12
習題 12
第2章 大數(shù)據(jù)學科與職業(yè) 13
2.1 大數(shù)據(jù)學科 13
2.2 大數(shù)據(jù)專業(yè)人才培養(yǎng)方案 14
2.3 大數(shù)據(jù)職業(yè)道德 16
本章小結 18
閱讀材料:道格 切特 18
習題 19
第3章 大數(shù)據(jù)生態(tài)系統(tǒng) 20
3.1 大數(shù)據(jù)生態(tài)系統(tǒng)概述 20
3.2 并行與分布式處理 21
3.2.1 并行處理 21
3.2.2 分布式處理 22
3.3 Hadoop 22
3.3.1 Hadoop概述 22
3.3.2 Hadoop生態(tài)圈 25
3.4 Spark 25
3.4.1 Spark概述 25
3.4.2 Spark生態(tài)圈 26
3.5 Storm 26
3.5.1 Storm概述 27
3.5.2 Storm集群架構與工作流程 27
本章小結 28
閱讀材料:南森 馬茨 28
習題 29
第4章 大數(shù)據(jù)采集與預處理 30
4.1 大數(shù)據(jù)采集與預處理概述 30
4.1.1 大數(shù)據(jù)采集技術 30
4.1.2 大數(shù)據(jù)預處理技術 32
4.2 大數(shù)據(jù)采集方法及工具 33
4.2.1 網(wǎng)絡數(shù)據(jù)采集方法 33
4.2.2 系統(tǒng)日志采集方法 36
4.2.3 科研數(shù)據(jù)采集方法 40
4.2.4 關系型數(shù)據(jù)庫數(shù)據(jù)采集方法 42
4.3 大數(shù)據(jù)預處理方法及工具 43
4.3.1 數(shù)據(jù)清洗 43
4.3.2 數(shù)據(jù)集成 45
4.3.3 數(shù)據(jù)歸約 46
4.3.4 數(shù)據(jù)變換 49
本章小結 53
閱讀材料:園中有金 53
習題 53
第5章 大數(shù)據(jù)存儲 54
5.1 集中式存儲與分布式存儲 54
5.2 非結構化數(shù)據(jù)庫 55
5.2.1 NewSQL 56
5.2.2 云數(shù)據(jù)庫 56
5.2.3 HBase 57
5.2.4 MongoDB 58
5.3 數(shù)據(jù)倉庫與OLAP 59
5.3.1 概述 59
5.3.2 基本架構 60
5.3.3 典型應用 62
本章小結 62
閱讀材料:盤古系統(tǒng) 63
習題 63
第6章 大數(shù)據(jù)分析 64
6.1 大數(shù)據(jù)分析與商業(yè)智能 64
6.1.1 大數(shù)據(jù)與大數(shù)據(jù)分析 65
6.1.2 大數(shù)據(jù)分析的種類 66
6.2 大數(shù)據(jù)統(tǒng)計分析 67
6.2.1 分類問題 68
6.2.2 回歸問題 72
6.2.3 聚類問題 74
6.2.4 人工神經(jīng)網(wǎng)絡 75
6.2.5 數(shù)據(jù)建模 80
6.3 大數(shù)據(jù)分析的應用與挑戰(zhàn) 80
6.3.1 Web挖掘 81
6.3.2 文本挖掘 84
6.3.3 社會網(wǎng)絡分析 87
6.3.4 智能制造中的數(shù)據(jù)分析 89
本章小結 89
閱讀材料:貝葉斯 89
習題 90
第7章 大數(shù)據(jù)可視化 91
7.1 數(shù)據(jù)可視化概述 91
7.1.1 數(shù)據(jù)可視化的特點 91
7.1.2 數(shù)據(jù)可視化的典型應用 92
7.2 數(shù)據(jù)可視化的常用工具 92
7.2.1 Tableau 92
7.2.2 Matplotlib 93
7.2.3 ECharts 94
本章小結 95
閱讀材料:馬克 扎克伯格 95
習題 96
第8章 大數(shù)據(jù)技術的典型應用 97
8.1 案例一:大型工業(yè)設備實時監(jiān)
測系統(tǒng) 97
8.1.1 集群部署與配置 97
8.1.2 數(shù)據(jù)表結構 101
8.2 案例二:基于MapReduce的
薪資核算 102
參考文獻 107