Spark大數(shù)據(jù)分析技術(shù)(Scala版)
定 價(jià):39 元
- 作者:曹潔 著
- 出版時(shí)間:2021/1/1
- ISBN:9787512433854
- 出 版 社:北京航空航天大學(xué)出版社
- 中圖法分類:TP274
- 頁碼:195
- 紙張:膠版紙
- 版次:1
- 開本:16開
《Spark大數(shù)據(jù)分析技術(shù)(Scala版)》系統(tǒng)介紹了Spark大數(shù)據(jù)技術(shù)的相關(guān)知識(shí),內(nèi)容包括Spark概述、Scala基礎(chǔ)編程、基于Scala的Spark編程、Windows環(huán)境下的Spark綜合編程、SparkSQL結(jié)構(gòu)化數(shù)據(jù)處理、SparkStreaming流計(jì)算、SparkGraphX圖計(jì)算、SparkMLlib機(jī)器學(xué)習(xí)。
《Spark大數(shù)據(jù)分析技術(shù)(Scala版)》還給出了Spark大數(shù)據(jù)相關(guān)技術(shù)的許多編程示例與詳細(xì)注解。
《Spark大數(shù)據(jù)分析技術(shù)(Scala版)》可作為高等院校計(jì)算機(jī)、軟件工程、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、智能科學(xué)與技術(shù)、人工智能等專業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考。
數(shù)據(jù)已成為國(guó)家基礎(chǔ)性戰(zhàn)略資源,大數(shù)據(jù)正逐漸對(duì)全球生產(chǎn)、流通、分配、消費(fèi)活動(dòng)以及經(jīng)濟(jì)運(yùn)行機(jī)制、社會(huì)生活方式和國(guó)家治理產(chǎn)生重要影響。2013年6月,Spark進(jìn)入Apache成為孵化項(xiàng)目,8個(gè)月后成為Apache頂級(jí)項(xiàng)目。Spark因其先進(jìn)的設(shè)計(jì)理念而迅速成為社區(qū)的熱門項(xiàng)目,隨著Spark的SparkSQL、SparkStreaming、MLlib和GraphX等組件被相繼推出,這些組件逐漸形成大數(shù)據(jù)處理一站式解決平臺(tái)。
Spark功能強(qiáng)大,涉及的知識(shí)面寬廣。本書用通俗易懂的語言闡述相關(guān)原理和操作,并給出了豐富的操作案例,同時(shí)將知識(shí)點(diǎn)講解與實(shí)際操作相結(jié)合,使讀者學(xué)以致用。
全書共8章,各章內(nèi)容如下。
第1章為Spark概述。本章主要介紹Spark運(yùn)行機(jī)制、Spark安裝及配置、SparkScala編程和SparkPython編程。
第2章為Scala基礎(chǔ)編程。本章對(duì)Scala進(jìn)行概要介紹,主要包括Scala特性,Scala安裝,Scala基本數(shù)據(jù)類型,Scala常量和變量,Scala數(shù)組、列表、集合和映射,Scala控制結(jié)構(gòu),Scala函數(shù),Scala類和Scala讀寫文件。
第3章為基于Scala的Spark編程。RDD是Spark的核心概念,本質(zhì)上是一個(gè)只讀的分區(qū)記錄集合,每個(gè)分區(qū)是一個(gè)數(shù)據(jù)集片段。Spark基于Scala語言提供了對(duì)RDD的轉(zhuǎn)換操作和行動(dòng)操作,通過這些操作可實(shí)現(xiàn)復(fù)雜的應(yīng)用。本章主要介紹RDD的創(chuàng)建方法、RDD各種操作、RDD屬性、RDD持久化的方法以及如何使用Scala語言編寫Spark應(yīng)用程序。
第4章為Windows環(huán)境下的Spark綜合編程。本章主要介紹如何在Windows系統(tǒng)上搭建Spark、Hadoop和Maven開發(fā)環(huán)境,并給出一個(gè)Spark綜合編程實(shí)例。
第5章為SparksoL結(jié)構(gòu)化數(shù)據(jù)處理。SparksoL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊,它提供了一個(gè)編程抽象,叫作DataFrame。本章主要介紹SparksoL與Shell交互、DataFrame對(duì)象的創(chuàng)建、DataFrame對(duì)象上的常用操作。
第6章為SparkStreaming流計(jì)算。本章首先介紹流計(jì)算的相關(guān)概念、SparkStreaming運(yùn)行原理、SparkStreaming程序編寫步驟、StreamingContext對(duì)象的創(chuàng)建,然后介紹DStream的常用操作。
第1章 Spark概述
1.1 認(rèn)識(shí)Spark
1.1.1 Spark的產(chǎn)生背景
1.1.2 Spark的優(yōu)點(diǎn)
1.1.3 Spark應(yīng)用場(chǎng)景
1.1.4 Spark生態(tài)系統(tǒng)
1.2 Spark運(yùn)行機(jī)制
1.2.1 Spark基本概念
1.2.2 Spark運(yùn)行架構(gòu)
1.2.3 Spark應(yīng)用執(zhí)行的基本流程
1.3 Spark的安裝及配置
1.3.1 Spark安裝的基礎(chǔ)環(huán)境
1.3.2 下載安裝文件
1.3.3 單機(jī)模式配置
1.3.4 偽分布式模式配置
1.4 SparkScala編程
1.4.1 啟動(dòng)SparkShell
1.4.2 退出SparkSheU
1.5 SparkPython編程
習(xí)題
第2章 Scala基礎(chǔ)編程
2.1 Scala特性
2.2 Windows環(huán)境下的Scala安裝
2.2.1 jdk安裝與環(huán)境變量配置
2.2.2 Scala安裝
2.3 聲明常量和變量
2.3.1 聲明常量
2.3.2 聲明變量
2.4 字符串
2.4.1 基本數(shù)據(jù)類型
2.4.2 運(yùn)算符
2.4.3 字符串對(duì)象的常用方法
2.5 Scala控制結(jié)構(gòu)
2.5.1 條件表達(dá)式
2.5.2 ifelse選擇結(jié)構(gòu)
2.5.3 編寫Scala腳本
2.5.4 循環(huán)
2.6 Scala數(shù)組
2.6.1 數(shù)組的分類
2.6.2 遍歷數(shù)組
2.6.3 數(shù)組轉(zhuǎn)換
2.6.4 數(shù)組對(duì)象的常用方法
2.7 列表
2.7.1 不可變列表(List)創(chuàng)建
2.7.2 不可變列表(List)操作
2.7.3 可變列表ListBuffer
2.8 集合
2.8.1 不可變集合
2.8.2 可變集合
2.9 映射
2.9.1 不可變映射
2.9.2 可變映射
2.10 元組
2.10.1 元組常用操作
2.10.2 拉鏈操作
2.11 Scala函數(shù)
2.11.1 函數(shù)定義
2.11.2 匿名函數(shù)
2.11.3 高階函數(shù)
2.12 Scala模式匹配
2.13 Scala類
2.13.1 class類
2.13.2 Object對(duì)象
2.14 Scala讀寫文件
2.14.1 讀取文件
2.14.2 寫入文件
習(xí)題
……
第3章 基于Scala的Spark編程
第4章 Windows環(huán)境下的Spark綜合編程
第5章 SparkSQL結(jié)構(gòu)化數(shù)據(jù)處理
第6章 SparkStreaming流計(jì)算
第7章 SparkGraphX圖計(jì)算
第8章 SparkMLlib機(jī)器學(xué)習(xí)
參考文獻(xiàn)