主要內(nèi)容
·大數(shù)據(jù)技術(shù)和Spark概述。
·通過實(shí)例學(xué)習(xí)DataFrame、SQL、Dataset等Spark的核心API。
·了解Spark的低級(jí)API實(shí)現(xiàn),包括RDD以及SQL和DataFrame的執(zhí)行過程。
·了解Spark如何在集群上運(yùn)行。
·Spark集群和應(yīng)用程序的調(diào)試、監(jiān)控、和調(diào)優(yōu)。
·學(xué)習(xí)Spark強(qiáng)大的流處理引擎——結(jié)構(gòu)化流處理。
·學(xué)習(xí)MLlib并了解如何應(yīng)用它解決包括分類、推薦,以及其他多種實(shí)際問題。
通過本書你將了解到如何使用、部署和維護(hù)Apache Spark開源集群計(jì)算框架。本書由Spark的創(chuàng)始人所撰寫,重點(diǎn)介紹Spark新版本的新功能和新特點(diǎn)。本書將Spark功能分解為若干獨(dú)立主題來(lái)進(jìn)行全面介紹。
你將接觸到Spark的基本操作和常用函數(shù),還包括一種全新的構(gòu)建端到端流數(shù)據(jù)應(yīng)用的結(jié)構(gòu)化流處理API。開發(fā)人員和系統(tǒng)管理員將了解到Spark的監(jiān)控、調(diào)優(yōu),以及調(diào)試的原則和方法,并通過使用Spark提供的可擴(kuò)展機(jī)器學(xué)習(xí)庫(kù)Mllib來(lái)了解機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)技術(shù)。
作者介紹
Bill Chambers是Databricks的一名產(chǎn)品經(jīng)理,致力于使用Spark和Databricks幫助客戶完成大規(guī)模數(shù)據(jù)分析的任務(wù)。Bill還定期寫關(guān)于數(shù)據(jù)科學(xué)和大數(shù)據(jù)方面的博客, 并常在各種會(huì)議和見面會(huì)上展示產(chǎn)品。他擁有加州大學(xué)伯克利分校信息學(xué)院的信息系統(tǒng)碩士學(xué)位, 研究方向?yàn)閿?shù)據(jù)科學(xué)。
Matei Zaharia是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授和Databricks的首席技術(shù)官。他于2009年在加州大學(xué)伯克利分校創(chuàng)立了Spark項(xiàng)目, 那時(shí)他是一名博士生, 并繼續(xù)擔(dān)任Apache Spark項(xiàng)目的副主席。Matei Zaharia還是Apache Mesos項(xiàng)目的聯(lián)合創(chuàng)始人,也是Apache Hadoop項(xiàng)目的貢獻(xiàn)者。Matei Zaharia以他出色的研究工作獲得了2014年美國(guó)計(jì)算機(jī)學(xué)會(huì)博士論文獎(jiǎng)和VMware系統(tǒng)研究獎(jiǎng)。
譯者介紹
張巖峰,東北大學(xué)教授,在國(guó)內(nèi)外從事大數(shù)據(jù)分布式處理研究工作10余年,中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專委會(huì)委員,大數(shù)據(jù)專委會(huì)通訊委員,研究設(shè)計(jì)了iMapReduce、Maiter等大數(shù)據(jù)迭代計(jì)算分布式框架,承擔(dān)和參與國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃等多項(xiàng)課題,在SIGMOD、VLDB、ICDE、PPoPP、TPDS、TKDE等頂D級(jí)國(guó)際會(huì)議和期刊上發(fā)表論文10余篇,曾獲云計(jì)算國(guó)際會(huì)議ACM SOCC 2011優(yōu)秀論文獎(jiǎng)及多項(xiàng)國(guó)內(nèi)外獎(jiǎng)勵(lì)和榮譽(yù)。