關(guān)于我們
書單推薦
新書推薦
|
Hadoop與Spark入門
本書為一本大數(shù)據(jù)技術(shù)的入門書籍,介紹Hadoop大數(shù)據(jù)平臺和Spark大數(shù)據(jù)平臺及相關(guān)工具的原理,以及如何進(jìn)行部署和簡單開發(fā)。
全書包含13章: 第1、2章介紹如何為深入學(xué)習(xí)Hadoop和Spark做環(huán)境準(zhǔn)備,包括VMware虛擬機(jī)的創(chuàng)建和CentOS操作系統(tǒng)安裝。第3~6章介紹Hadoop大數(shù)據(jù)平臺的基本原理,包括HDFS、MapReduce計(jì)算模型、HBase數(shù)據(jù)庫,以及Hive數(shù)據(jù)倉庫的原理、部署方法和開發(fā)技術(shù)。第7~11章介紹Spark大數(shù)據(jù)平臺的基本原理,包括彈性分布式數(shù)據(jù)集、轉(zhuǎn)換與動作操作、寬依賴與窄依賴、有向無環(huán)圖表達(dá)的作業(yè)及其處理過程等,并且介紹了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和開發(fā)技術(shù)。最后兩章介紹了Flume(第12章)和Kafka(第13章)兩個工具,F(xiàn)lume用于大量日志的收集和處理,Kafka用于對大量快速到達(dá)的數(shù)據(jù)進(jìn)行及時、可靠、暫時的存儲。 本書適合高等院校高年級本科生以及碩士研究生使用,也可以供非計(jì)算機(jī)專業(yè)學(xué)生及相關(guān)領(lǐng)域技術(shù)人員參考。
你還可能感興趣
我要評論
|