本書按照大數(shù)據(jù)分析流程,以電商產(chǎn)品數(shù)據(jù)為例,由淺入深地講解大數(shù)據(jù)分析的核心開發(fā)技術(shù),以及大數(shù)據(jù)分析工具及其組件的作用和使用方法。本書內(nèi)容系統(tǒng)、全面,可幫助讀者快速掌握大數(shù)據(jù)分析技術(shù)。本書介紹了大數(shù)據(jù)分析的概念、應(yīng)用場景、分析指標(biāo)、分析工具、分析組件、分布式存儲、分布式處理、數(shù)據(jù)離線分析、數(shù)據(jù)實(shí)時分析、數(shù)據(jù)挖掘,以及數(shù)據(jù)遷移等知識,并通過實(shí)際的操作案例,詳細(xì)、直觀地介紹了大數(shù)據(jù)分析的實(shí)現(xiàn)過程。
本書可作為高等職業(yè)院校大數(shù)據(jù)技術(shù)等專業(yè)的教材,也可作為大數(shù)據(jù)分析技術(shù)人員的參考書。
1.結(jié)合大數(shù)據(jù)一線企業(yè)浪潮集團(tuán)在數(shù)據(jù)采集行業(yè)的行業(yè)經(jīng)驗(yàn)與案例總結(jié)。做到了真正的產(chǎn)教融合。
2.以項(xiàng)目為模塊組織教材內(nèi)容,打破了原有教材體系的章節(jié)框架局限。采用明確項(xiàng)目任務(wù)、制定項(xiàng)目計(jì)劃、實(shí)施計(jì)劃、檢查與評價的形式,改變了傳統(tǒng)的授課模式與內(nèi)容。
3.深度契合高等職業(yè)學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用最新專業(yè)教學(xué)標(biāo)準(zhǔn)。
項(xiàng)目1
初識電商產(chǎn)品數(shù)據(jù)的處理與
分析 1
項(xiàng)目導(dǎo)言 1
項(xiàng)目導(dǎo)圖 1
知識目標(biāo) 1
技能目標(biāo) 2
素養(yǎng)目標(biāo) 2
任務(wù)1-1 電商產(chǎn)品數(shù)據(jù)背景及數(shù)據(jù)
分析概述 2
任務(wù)描述 2
素質(zhì)拓展 2
任務(wù)技能 2
技能點(diǎn)1 電商產(chǎn)品數(shù)據(jù)背景 2
技能點(diǎn)2 大數(shù)據(jù)分析概念 4
技能點(diǎn)3 大數(shù)據(jù)分析應(yīng)用場景 5
技能點(diǎn)4 大數(shù)據(jù)分析指標(biāo) 9
任務(wù)1-2 電商產(chǎn)品數(shù)據(jù)處理與分析
項(xiàng)目準(zhǔn)備 12
任務(wù)描述 12
素質(zhì)拓展 12
任務(wù)技能 12
技能點(diǎn)1 大數(shù)據(jù)分析工具簡介 12
技能點(diǎn)2 大數(shù)據(jù)分析組件 15
技能點(diǎn)3 大數(shù)據(jù)分析流程 19
技能點(diǎn)4 大數(shù)據(jù)分析企業(yè)級應(yīng)用 20
任務(wù)實(shí)施 22
項(xiàng)目小結(jié) 26
課后習(xí)題 26
自我評價 27
項(xiàng)目2
電商產(chǎn)品數(shù)據(jù)分布式存儲 28
項(xiàng)目導(dǎo)言 28
項(xiàng)目導(dǎo)圖 28
知識目標(biāo) 28
技能目標(biāo) 29
素養(yǎng)目標(biāo) 29
任務(wù)2-1 使用HDFS Shell管理
電商產(chǎn)品數(shù)據(jù) 29
任務(wù)描述 29
素質(zhì)拓展 29
任務(wù)技能 29
技能點(diǎn)1 什么是HDFS 29
技能點(diǎn)2 HDFS存儲架構(gòu) 30
技能點(diǎn)3 HDFS文件存取機(jī)制 32
技能點(diǎn)4 HDFS Shell基礎(chǔ)命令 36
技能點(diǎn)5 HDFS Shell管理命令 38
任務(wù)實(shí)施 40
任務(wù)2-2 使用HDFS庫管理電商
產(chǎn)品數(shù)據(jù) 44
任務(wù)描述 44
素質(zhì)拓展 44
任務(wù)技能 44
技能點(diǎn)1 HDFS庫簡介 44
技能點(diǎn)2 HDFS庫方法 44
任務(wù)實(shí)施 48
項(xiàng)目小結(jié) 51
課后習(xí)題 51
自我評價 52
項(xiàng)目3
電商產(chǎn)品數(shù)據(jù)分布式處理 53
項(xiàng)目導(dǎo)言 53
項(xiàng)目導(dǎo)圖 53
知識目標(biāo) 53
技能目標(biāo) 53
素養(yǎng)目標(biāo) 54
任務(wù)3-1 使用正則表達(dá)式匹配電商
產(chǎn)品數(shù)據(jù) 54
任務(wù)描述 54
素質(zhì)拓展 54
任務(wù)技能 54
技能點(diǎn)1 MapReduce簡介 54
技能點(diǎn)2 YARN簡介 56
技能點(diǎn)3 正則表達(dá)式 59
任務(wù)實(shí)施 61
任務(wù)3-2 使用Hadoop Streaming
處理電商產(chǎn)品數(shù)據(jù) 64
任務(wù)描述 64
素質(zhì)拓展 64
任務(wù)技能 64
技能點(diǎn)1 Hadoop Streaming簡介 64
技能點(diǎn)2 Hadoop Streaming的使用
方法 64
任務(wù)實(shí)施 65
項(xiàng)目小結(jié) 71
課后習(xí)題 71
自我評價 72
項(xiàng)目4
電商產(chǎn)品數(shù)據(jù)離線分析 73
項(xiàng)目導(dǎo)言 73
項(xiàng)目導(dǎo)圖 73
知識目標(biāo) 73
技能目標(biāo) 74
素養(yǎng)目標(biāo) 74
任務(wù)4-1 使用Hive創(chuàng)建電商產(chǎn)品
數(shù)據(jù)庫 74
任務(wù)描述 74
素質(zhì)拓展 74
任務(wù)技能 74
技能點(diǎn)1 Hive數(shù)據(jù)庫操作 74
技能點(diǎn)2 Hive表操作 76
技能點(diǎn)3 Hive數(shù)據(jù)操作 78
任務(wù)實(shí)施 80
任務(wù)4-2 使用Hive對電商產(chǎn)品數(shù)據(jù)
進(jìn)行統(tǒng)計(jì) 84
任務(wù)描述 84
素質(zhì)拓展 84
任務(wù)技能 84
技能點(diǎn)1 算術(shù)運(yùn)算 84
技能點(diǎn)2 數(shù)據(jù)查詢 85
任務(wù)實(shí)施 88
任務(wù)4-3 使用Spark創(chuàng)建基于電商
產(chǎn)品數(shù)據(jù)的分布式數(shù)據(jù)
容器 95
任務(wù)描述 95
素質(zhì)拓展 95
任務(wù)技能 95
技能點(diǎn)1 Spark SQL簡介 95
技能點(diǎn)2 DataFrame簡介 97
技能點(diǎn)3 DataFrame創(chuàng)建 98
任務(wù)實(shí)施 102
任務(wù)4-4 使用Spark SQL完成電商
產(chǎn)品數(shù)據(jù)分析 103
任務(wù)描述 103
素質(zhì)拓展 103
任務(wù)技能 104
技能點(diǎn)1 數(shù)據(jù)查看 104
技能點(diǎn)2 數(shù)據(jù)過濾 105
技能點(diǎn)3 數(shù)據(jù)處理 105
技能點(diǎn)4 數(shù)據(jù)存儲 107
任務(wù)實(shí)施 108
項(xiàng)目小結(jié) 111
課后習(xí)題 111
自我評價 112
項(xiàng)目5
電商產(chǎn)品數(shù)據(jù)實(shí)時分析 113
項(xiàng)目導(dǎo)言 113
項(xiàng)目導(dǎo)圖 113
知識目標(biāo) 113
技能目標(biāo) 113
素養(yǎng)目標(biāo) 114
任務(wù)5-1 創(chuàng)建數(shù)據(jù)流 114
任務(wù)描述 114
素質(zhì)拓展 114
任務(wù)技能 114
技能點(diǎn)1 流式計(jì)算簡介 114
技能點(diǎn)2 Spark Streaming簡介 116
技能點(diǎn)3 DStream簡介 117
技能點(diǎn)4 DStream的創(chuàng)建 118
任務(wù)實(shí)施 120
任務(wù)5-2 使用Spark Streaming
對電商產(chǎn)品數(shù)據(jù)進(jìn)行實(shí)時
數(shù)據(jù)分析 122
任務(wù)描述 122
素質(zhì)拓展 122
任務(wù)技能 122
技能點(diǎn)1 DStream轉(zhuǎn)換操作 122
技能點(diǎn)2 DStream窗口操作 124
技能點(diǎn)3 DStream輸出操作 125
技能點(diǎn)4 Spark Streaming啟動與
停止 126
任務(wù)實(shí)施 127
項(xiàng)目小結(jié) 134
課后習(xí)題 134
自我評價 135
項(xiàng)目6
電商產(chǎn)品數(shù)據(jù)挖掘 136
項(xiàng)目導(dǎo)言 136
項(xiàng)目導(dǎo)圖 136
知識目標(biāo) 136
技能目標(biāo) 137
素養(yǎng)目標(biāo) 137
任務(wù)6-1 處理電商產(chǎn)品數(shù)據(jù) 137
任務(wù)描述 137
素質(zhì)拓展 137
任務(wù)技能 137
技能點(diǎn)1 Spark MLlib概述 137
技能點(diǎn)2 Spark MLlib數(shù)據(jù)類型 138
技能點(diǎn)3 特征提取與數(shù)據(jù)處理 140
任務(wù)實(shí)施 144
任務(wù)6-2 使用Spark MLlib對電商
產(chǎn)品定價 151
任務(wù)描述 151
素質(zhì)拓展 152
任務(wù)技能 152
技能點(diǎn)1 分類算法 152
技能點(diǎn)2 回歸算法 154
技能點(diǎn)3 推薦算法 156
技能點(diǎn)4 算法評估 157
任務(wù)實(shí)施 159
項(xiàng)目小結(jié) 162
課后習(xí)題 162
自我評價 163
項(xiàng)目7
電商產(chǎn)品數(shù)據(jù)遷移 164
項(xiàng)目導(dǎo)言 164
項(xiàng)目導(dǎo)圖 164
知識目標(biāo) 164
技能目標(biāo) 164
素養(yǎng)目標(biāo) 165
任務(wù)7-1 根據(jù)電商產(chǎn)品數(shù)據(jù)統(tǒng)計(jì)結(jié)果
創(chuàng)建數(shù)據(jù)表并查看 165
任務(wù)描述 165
素質(zhì)拓展 165
任務(wù)技能 165
技能點(diǎn)1 Sqoop架構(gòu) 165
技能點(diǎn)2 Sqoop連接器 167
技能點(diǎn)3 Sqoop配置數(shù)據(jù)庫密碼
方式 167
技能點(diǎn)4 列出所有數(shù)據(jù)庫 168
技能點(diǎn)5 列出數(shù)據(jù)庫中的所有表 169
任務(wù)實(shí)施 169
任務(wù)7-2 使用Sqoop將Hive中
電商產(chǎn)品數(shù)據(jù)統(tǒng)計(jì)結(jié)果
導(dǎo)出 172
任務(wù)描述 172
素質(zhì)拓展 172
任務(wù)技能 173
技能點(diǎn)1 Sqoop數(shù)據(jù)導(dǎo)入與
導(dǎo)出 173
技能點(diǎn)2 其他常用命令 176
任務(wù)實(shí)施 178
項(xiàng)目小結(jié) 183
課后習(xí)題 183
自我評價 184