大數(shù)據(jù)技術(shù)科普3——大數(shù)據(jù)分析與挖掘
定 價(jià):27 元
叢書(shū)名:大數(shù)據(jù)技術(shù)系列叢書(shū)
- 作者:程愷
- 出版時(shí)間:2023/4/1
- ISBN:9787560667836
- 出 版 社:西安電子科技大學(xué)出版社
- 中圖法分類:TP274-49
- 頁(yè)碼:108
- 紙張:
- 版次:1
- 開(kāi)本:16開(kāi)
本書(shū)是大數(shù)據(jù)分析技術(shù)的入門圖書(shū),內(nèi)容分為大數(shù)據(jù)分析與挖掘概述、Spark SQL結(jié)構(gòu)化數(shù)據(jù)分析與處理、Spark Streaming流數(shù)據(jù)分析與處理、Spark GraphX圖數(shù)據(jù)分析與處理、Spark MLlib機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析系統(tǒng)等6章。通過(guò)每章的章節(jié)導(dǎo)讀,讀者能夠快速了解本章相關(guān)內(nèi)容的背景意義;通過(guò)相關(guān)理論及概念的介紹,讀者能夠?qū)Υ髷?shù)據(jù)分析的基本方法有整體認(rèn)識(shí)和了解;通過(guò)典型案例的講解,讀者能夠?qū)Υ髷?shù)據(jù)分析技術(shù)的應(yīng)用有深刻認(rèn)識(shí)。本書(shū)既注重基礎(chǔ)知識(shí)也關(guān)注前沿問(wèn)題,通過(guò)知識(shí)鏈接、小貼士等板塊補(bǔ)充相關(guān)前沿知識(shí)內(nèi)容。
本書(shū)可作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)人員的入門讀物,也可作為相關(guān)職業(yè)教育課程的參考書(shū),還可作為大數(shù)據(jù)技術(shù)應(yīng)用的愛(ài)好者以及各領(lǐng)域大數(shù)據(jù)建設(shè)、管理和運(yùn)用者的參考書(shū)。
近年來(lái)科學(xué)技術(shù)的發(fā)展和普及促進(jìn)了各領(lǐng)域的不斷發(fā)展,各學(xué)科均出現(xiàn)了相互交融的現(xiàn)象。在這種背景下,數(shù)據(jù)正在從傳統(tǒng)的結(jié)構(gòu)化模式向著半結(jié)構(gòu)化以及非結(jié)構(gòu)化模式的方向轉(zhuǎn)換,從以往作為常規(guī)的處理對(duì)象逐漸發(fā)展成為各行業(yè)領(lǐng)域具有戰(zhàn)略性的基礎(chǔ)資源。如何有效地處理這些海量的數(shù)據(jù)資源,發(fā)現(xiàn)其蘊(yùn)藏的知識(shí)規(guī)律,需要大數(shù)據(jù)處理技術(shù)的支持。Spark作為新興的、應(yīng)用范圍廣泛的大數(shù)據(jù)處理開(kāi)源框架,可以從海量數(shù)據(jù)中找到值得參考的模式或規(guī)則,轉(zhuǎn)換成有價(jià)值的知識(shí),并創(chuàng)造更多新價(jià)值,從而吸引大量的大數(shù)據(jù)分析與挖掘從業(yè)人員進(jìn)行相關(guān)內(nèi)容的學(xué)習(xí)與開(kāi)發(fā)。
本書(shū)結(jié)合Spark框架,較為全面地介紹了大數(shù)據(jù)分析與挖掘的相關(guān)知識(shí),內(nèi)容涵蓋大數(shù)據(jù)分析與挖掘概述、Spark SQL結(jié)構(gòu)化數(shù)據(jù)分析與處理、Spark Streaming流數(shù)據(jù)分析與處理、Spark GraphX圖數(shù)據(jù)分析與處理、Spark MLlib機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析系統(tǒng)。本書(shū)旨在通過(guò)通俗易懂的方式將復(fù)雜的大數(shù)據(jù)分析問(wèn)題講明白,幫助讀者了解并掌握最新的大數(shù)據(jù)分析處理技術(shù)。
本書(shū)具有以下特點(diǎn):
(1) 條理清晰,模塊豐富,內(nèi)容極具特色。
本書(shū)從“簡(jiǎn)單、易懂、實(shí)用、有效”出發(fā),以素質(zhì)為核心,以能力為本位,注重知識(shí)和技能的實(shí)際靈活應(yīng)用。本書(shū)在內(nèi)容的編寫上設(shè)置了“章節(jié)導(dǎo)讀”“學(xué)習(xí)目標(biāo)”“思政目標(biāo)”“知識(shí)鏈接”“課后思考”等模塊,逐步引導(dǎo)讀者更好地掌握知識(shí)內(nèi)容。
(2) 注重實(shí)用性、技能性和應(yīng)用性。
本書(shū)精選前沿大數(shù)據(jù)分析技術(shù),力求知識(shí)新穎、案例豐富鮮活,同時(shí)配備豐富的教輔資源,理論與實(shí)踐相結(jié)合,提升解決問(wèn)題的能力,突出實(shí)用性、技能性和應(yīng)用性。
(3) 理論為主,案例為輔,通俗易懂。
本書(shū)以基本理論介紹為主,輔以示例,講解細(xì)致直觀,抓住核心問(wèn)題,力求將復(fù)雜的大數(shù)據(jù)分析技術(shù)方法以通俗易懂的方式講明白。
在編寫本書(shū)的過(guò)程中,我們參考了相關(guān)資料,在此對(duì)相關(guān)文獻(xiàn)的作者表示衷心的感謝;同時(shí),我們也得到了許多同行的支持與幫助,在此表示感謝。由于編者能力有限,書(shū)中難免存在一些不足,敬請(qǐng)廣大讀者批評(píng)和指正。
編 者
2023年1月
第1章 大數(shù)據(jù)分析與挖掘概述 1
1.1 大數(shù)據(jù)分析的計(jì)算模式 1
1. 批處理計(jì)算 2
2. 查詢分析計(jì)算 2
3. 流計(jì)算 2
4. 圖計(jì)算 3
5. 機(jī)器學(xué)習(xí) 3
1.2 認(rèn)識(shí)大數(shù)據(jù)分析計(jì)算框架Spark 4
1. Spark簡(jiǎn)介 4
2. Spark的特點(diǎn) 7
3. Spark與Hadoop MapReduce的對(duì)比 9
第2章 Spark SQL 結(jié)構(gòu)化數(shù)據(jù)分析與處理 13
2.1 Spark SQL簡(jiǎn)介 13
1. Hive 13
2. Shark 17
2.2 DataFrame概述 20
1. DataFrame簡(jiǎn)介 20
2. DataFrame與RDD的區(qū)別 22
2.3 DataFrame 的轉(zhuǎn)換 26
1. 寬依賴與窄依賴 26
2. DataFrame和Dataset以及RDD之間的相互轉(zhuǎn)換 27
第3章 Spark Streaming 流數(shù)據(jù)分析與處理 29
3.1 流計(jì)算概述 29
1. 靜態(tài)數(shù)據(jù)與流數(shù)據(jù) 29
2. 流計(jì)算的基本理念 31
3. 流計(jì)算框架 31
3.2 Spark Streaming 34
1. 工作原理 34
2. 數(shù)據(jù)抽象DStream 36
3. 性能調(diào)優(yōu) 41
4. 容錯(cuò)處理 43
5. Spark Streaming與Storm的關(guān)系 44
3.3 Spark Structured Streaming 46
1. Spark Structured Streaming簡(jiǎn)介 46
2. Spark Structured Streaming的特點(diǎn) 47
3. Spark Structured Streaming的數(shù)據(jù)模型 47
第4章 Spark GraphX 圖數(shù)據(jù)分析與處理 53
4.1 圖計(jì)算概述 53
1. 圖計(jì)算 53
2. 圖的表示 54
3. 圖的結(jié)構(gòu) 55
4. 圖處理技術(shù) 55
5. 圖處理工具 56
6. 圖計(jì)算應(yīng)用 58
4.2 Spark GraphX 59
1. Spark GraphX概述 59
2. Spark GraphX模塊 60
3. Spark GraphX的發(fā)展歷程 61
4. Spark GraphX的整體架構(gòu) 61
第5章 Spark MLlib 機(jī)器學(xué)習(xí) 63
5.1 基于大數(shù)據(jù)的機(jī)器學(xué)習(xí) 63
1. 機(jī)器學(xué)習(xí) 63
2. 模型與算法的關(guān)系 66
3. 基于大數(shù)據(jù)的機(jī)器學(xué)習(xí) 66
4. 基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別 67
5. Spark對(duì)于機(jī)器學(xué)習(xí)的優(yōu)勢(shì) 67
5.2 Spark MLlib 69
1. Spark MLlib的特點(diǎn) 69
2. Spark MLlib的適用范圍 69
3. Spark MLlib庫(kù) 71
4. Spark ML庫(kù) 72
5.3 Spark中幾種典型的機(jī)器學(xué)習(xí)算法 74
1. 分類與預(yù)測(cè) 74
2. 邏輯回歸 75
3. 協(xié)同過(guò)濾 76
4. 聚類分析 78
第6章 大數(shù)據(jù)分析系統(tǒng) 80
6.1 大數(shù)據(jù)分析系統(tǒng)的背景與構(gòu)架 80
1. 大數(shù)據(jù)分析系統(tǒng)的背景 80
2. 應(yīng)用架構(gòu) 81
6.2 業(yè)務(wù)實(shí)現(xiàn)與統(tǒng)計(jì)分析 82
1. 流量、性能的實(shí)時(shí)分析 82
2. 流量、性能的統(tǒng)計(jì)分析 84
3. 業(yè)務(wù)關(guān)聯(lián)分析 85
4. 離線報(bào)表分析 87
6.3 系統(tǒng)資源分析平臺(tái) 92
1. 應(yīng)用架構(gòu) 92
2. 代碼實(shí)現(xiàn) 93
3. 結(jié)果驗(yàn)證 95
6.4 在Spark上訓(xùn)練LR模型 96
1. 數(shù)據(jù)格式 96
2. MLlib中LR模型源碼介紹 97
參考文獻(xiàn) 100