關(guān)于我們
書單推薦
新書推薦
|
Python和PySpark數(shù)據(jù)分析 Spark數(shù)據(jù)處理引擎是一個驚人的分析工廠:輸入原始數(shù)據(jù),輸出洞察。PySpark用基于Python的API封裝了Spark的核心引擎。它有助于簡化Spark陡峭的學習曲線,并使這個強大的工具可供任何在Python數(shù)據(jù)生態(tài)系統(tǒng)中工作的人使用。 《Python和PySpark數(shù)據(jù)分析》幫助你使用PySpark解決數(shù)據(jù)科學的日常挑戰(zhàn)。你將學習如何跨多臺機器擴展處理能力,同時從任何來源(無論是Hadoop集群、云數(shù)據(jù)存儲還是本地數(shù)據(jù)文件)獲取數(shù)據(jù)。一旦掌握了基礎(chǔ)知識,就可以通過構(gòu)建機器學習管道,并配合Python、pandas和PySpark代碼,探索PySpark的全面多功能特性。 主要內(nèi)容 ● 組織PySpark代碼 ● 管理任何規(guī)模的數(shù)據(jù) ● 充滿信心地擴展你的數(shù)據(jù)項目 ● 解決常見的數(shù)據(jù)管道問題 ● 創(chuàng)建可靠的長時間運行的任務(wù)
你還可能感興趣
我要評論
|