數(shù)據(jù)倉庫Hive應用實戰(zhàn)
定 價:49.9 元
- 作者:王海霞
- 出版時間:2023/12/1
- ISBN:9787121469879
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.13
- 頁碼:296
- 紙張:
- 版次:01
- 開本:16開
本書包括9個模塊,分別為部署數(shù)據(jù)倉庫環(huán)境、創(chuàng)建數(shù)據(jù)倉庫文件、管理倉庫表中的數(shù)據(jù)、管理分區(qū)表中的數(shù)據(jù)、分析和導出倉庫數(shù)據(jù)、應用函數(shù)統(tǒng)計分析、遷移平臺數(shù)據(jù)方法、調優(yōu)數(shù)據(jù)倉庫性能、數(shù)據(jù)倉庫應用實戰(zhàn)。編者秉持“以提升學生能力為本”的編寫理念,基于工作過程導向重構課程體系,采用情景導入式和問題導入式教學模式,聯(lián)合企業(yè)遴選4個不同應用場景的大數(shù)據(jù)分析項目,設計24個循序漸進的任務,按照“學習目標→任務分析→技術準備→任務實施→任務小結→模塊總結→實踐創(chuàng)新→檢測反饋”結構編寫,引導學生“照樣做”“模仿做”“獨立做”“創(chuàng)新做”。本書既可作為高職高專院校大數(shù)據(jù)技術專業(yè)的教材,又可作為培訓機構的教學用書,還可作為大數(shù)據(jù)技術行業(yè)技術人員的參考用書。
王海霞,女,湖南省技術能手,數(shù)據(jù)庫系統(tǒng)工程師,二級技師,湖南省大數(shù)據(jù)技術專業(yè)教學資源庫核心成員,全國職業(yè)院校技能大賽"優(yōu)秀指導老師”,主持省級教育教學改革研究項目——"新工科”背景下大數(shù)據(jù)技術與應用專業(yè)交融型課程體系構建研究—以《Hive數(shù)據(jù)倉庫》在線課程為例。
目錄
項目模塊1 部署數(shù)據(jù)倉庫環(huán)境 001
任務1.1 部署Hive系統(tǒng) 002
1.1.1 Hive的系統(tǒng)架構 002
1.1.2 Hive的工作原理 004
1.1.3 Hive和傳統(tǒng)數(shù)據(jù)庫的區(qū)別 005
1.1.4 檢查及配置Hadoop 006
1.1.5 安裝和配置Hive 013
1.1.6 配置MySQL存儲Hive元數(shù)據(jù) 015
任務1.2 操作Hive CLI 019
1.2.1 Hive CLI的自動補全功能 019
1.2.2 Hive CLI中命令的格式 019
1.2.3 在Hive CLI中執(zhí)行Hadoop的dfs命令 020
1.2.4 Hive CLI中的變量和屬性 021
1.2.5 使用Hive中的-e(一次使用)命令 026
1.2.6 使用Hive中的-f命令執(zhí)行腳本 027
1.2.7 設置.hiverc默認配置文件 028
1.2.8 查看操作命令歷史 029
模塊總結 029
實踐創(chuàng)新 030
檢測反饋 031
項目模塊2 創(chuàng)建數(shù)據(jù)倉庫文件 033
任務2.1 創(chuàng)建數(shù)據(jù)倉庫 034
2.1.1 數(shù)據(jù)倉庫分層 034
2.1.2 數(shù)據(jù)倉庫文件的存儲路徑 036
2.1.3 數(shù)據(jù)倉庫的創(chuàng)建 036
2.1.4 設計“大數(shù)據(jù)商業(yè)智能選址”項目的數(shù)據(jù)倉庫 038
2.1.5 創(chuàng)建“大數(shù)據(jù)商業(yè)智能選址”項目運營層數(shù)據(jù)倉庫 040
2.1.6 創(chuàng)建“大數(shù)據(jù)商業(yè)智能選址”項目倉庫層數(shù)據(jù)倉庫 040
任務2.2 查詢和管理數(shù)據(jù)倉庫 041
2.2.1 數(shù)據(jù)倉庫的查詢 042
2.2.2 數(shù)據(jù)倉庫的切換 042
2.2.3 數(shù)據(jù)倉庫的查看 043
2.2.4 數(shù)據(jù)倉庫的存儲位置 043
2.2.5 查詢“大數(shù)據(jù)商業(yè)智能選址”項目的數(shù)據(jù)倉庫的列表 045
2.2.6 查詢“大數(shù)據(jù)商業(yè)智能選址”項目的數(shù)據(jù)倉庫的詳細信息 046
任務2.3 修改和刪除數(shù)據(jù)倉庫 046
2.3.1 數(shù)據(jù)倉庫的修改 047
2.3.2 數(shù)據(jù)倉庫的刪除 048
2.3.3 修改“大數(shù)據(jù)商業(yè)智能選址”項目運營層數(shù)據(jù)倉庫的屬性 049
2.3.4 修改“大數(shù)據(jù)商業(yè)智能選址”項目倉庫層數(shù)據(jù)倉庫的屬性 049
2.3.5 刪除coursedb數(shù)據(jù)倉庫 050
模塊總結 051
實踐創(chuàng)新 051
檢測反饋 053
項目模塊3 管理倉庫表中的數(shù)據(jù) 055
任務3.1 創(chuàng)建數(shù)據(jù)表 056
3.1.1 Hive中的數(shù)據(jù)類型 057
3.1.2 表的創(chuàng)建 058
3.1.3 表的管理 062
3.1.4 其他創(chuàng)建表的方式 063
3.1.5 數(shù)據(jù)表屬性 065
3.1.6 數(shù)據(jù)表存儲格式 066
3.1.7 構建“大數(shù)據(jù)商業(yè)智能選址”項目的邏輯模型 068
3.1.8 創(chuàng)建“大數(shù)據(jù)商業(yè)智能選址”項目的ods_site數(shù)據(jù)倉庫的非分
區(qū)表 071
3.1.9 創(chuàng)建“大數(shù)據(jù)商業(yè)智能選址”項目的dwd_site數(shù)據(jù)倉庫中的表 075
任務3.2 修改和刪除數(shù)據(jù)表 077
3.2.1 修改表 078
3.2.2 刪除表 081
3.2.3 修改“大數(shù)據(jù)商業(yè)智能選址”項目的ods_site數(shù)據(jù)倉庫中的表 083
任務3.3 導入數(shù)據(jù)到表中 084
3.3.1 使用LOAD DATA語句導入數(shù)據(jù) 084
3.3.2 使用INSERT...SELECT語句導入數(shù)據(jù) 087
3.3.3 使用IMPORT語句導入數(shù)據(jù) 089
3.3.4 使用CTAS語句導入數(shù)據(jù) 089
3.3.5 使用INSERT INTO TABLE...VALUES語句導入數(shù)據(jù) 090
3.3.6 將源數(shù)據(jù)導入“大數(shù)據(jù)商業(yè)智能選址”項目的ods_site數(shù)據(jù)倉庫的
非分區(qū)表中 091
模塊總結 093
實踐創(chuàng)新 094
檢測反饋 095
項目模塊4 管理分區(qū)表中的數(shù)據(jù) 097
任務4.1 創(chuàng)建和管理分區(qū)表 098
4.1.1 創(chuàng)建分區(qū)表 098
4.1.2 管理分區(qū)表 101
4.1.3 查看分區(qū)信息 101
4.1.4 創(chuàng)建“大數(shù)據(jù)商業(yè)智能選址”項目的分區(qū)表 103
任務4.2 導入數(shù)據(jù)到分區(qū)表中 106
4.2.1 在靜態(tài)分區(qū)中導入數(shù)據(jù) 106
4.2.2 在動態(tài)分區(qū)中導入數(shù)據(jù) 108
4.2.3 混合使用動態(tài)分區(qū)和靜態(tài)分區(qū)導入數(shù)據(jù) 109
4.2.4 將源數(shù)據(jù)導入“大數(shù)據(jù)商業(yè)智能選址”項目的ods_site數(shù)據(jù)倉庫的
分區(qū)表中 111
任務4.3 修改和刪除分區(qū) 113
4.3.1 添加分區(qū) 113
4.3.2 修改分區(qū)路徑 115
4.3.3 修改分區(qū)字段名 116
4.3.4 刪除分區(qū) 117
4.3.5 修改“大數(shù)據(jù)商業(yè)智能選址”項目的ods_site數(shù)據(jù)倉庫中的
分區(qū)表 118
模塊總結 120
實踐創(chuàng)新 121
檢測反饋 122
項目模塊5 分析和導出倉庫數(shù)據(jù) 124
任務5.1 分析倉庫數(shù)據(jù) 125
5.1.1 SELECT語句 126
5.1.2 LIMIT子句 130
5.1.3 SELECT嵌套語句 130
5.1.4 CASE分支表達式 131
5.1.5 WHERE子句 132
5.1.6 GROUP BY子句和HAVING子句 136
5.1.7 JOIN連接 140
5.1.8 排序子句 144
5.1.9 分析統(tǒng)計“大數(shù)據(jù)商業(yè)智能選址”項目的DWD層數(shù)據(jù) 149
5.1.10 分析統(tǒng)計“大數(shù)據(jù)商業(yè)智能選址”項目的DM層已建址銀行
要素值 153
5.1.11 分析過濾“大數(shù)據(jù)商業(yè)智能選址”項目的DM層不可建址
區(qū)域 158
任務5.2 導出倉庫數(shù)據(jù) 161
5.2.1 使用INSERT...SELECT語句導出數(shù)據(jù) 161
5.2.2 使用EXPORT語句導出數(shù)據(jù) 164
5.2.3 使用-e重定向命令導出數(shù)據(jù) 166
5.2.4 使用dfs -get命令導出數(shù)據(jù) 166
5.2.5 導出“大數(shù)據(jù)商業(yè)智能選址”項目的dwd_site數(shù)據(jù)倉庫中的
數(shù)據(jù) 167
模塊總結 169
實踐創(chuàng)新 170
檢測反饋 171
項目模塊6 應用函數(shù)統(tǒng)計分析 173
任務6.1 應用Hive內置函數(shù) 174
6.1.1 初識Hive函數(shù) 174
6.1.2 Hive函數(shù)的分類 175
6.1.3 聚合函數(shù) 176
6.1.4 集合函數(shù) 178
6.1.5 數(shù)學函數(shù) 179
6.1.6 類型轉換函數(shù) 180
6.1.7 日期函數(shù) 181
6.1.8 條件函數(shù) 182
6.1.9 字符串函數(shù) 184
6.1.10 表生成函數(shù) 190
任務6.2 應用Hive自定義函數(shù) 191
6.2.1 自定義函數(shù)的特點 192
6.2.2 新建Maven項目環(huán)境 192
6.2.3 編寫UDF的Java代碼 194
6.2.4 將UDF部署到Hive環(huán)境中 196
6.2.5 應用UDF 198
模塊總結 199
實踐創(chuàng)新 200
檢測反饋 201
項目模塊7 遷移平臺數(shù)據(jù)方法 203
任務7.1 部署和配置Sqoop 204
7.1.1 Sqoop介紹 204
7.1.2 Sqoop架構 205
7.1.3 部署Sqoop 206
7.1.4 配置Sqoop 207
任務7.2 應用Sqoop遷移數(shù)據(jù) 209
7.2.1 Sqoop常用命令 209
7.2.2 Sqoop數(shù)據(jù)遷移方式 210
7.2.3 將Hive表數(shù)據(jù)遷移到MySQL中 211
7.2.4 將MySQL表數(shù)據(jù)遷移到Hive中 214
模塊總結 220
實踐創(chuàng)新 220
檢測反饋 221
項目模塊8 調優(yōu)數(shù)據(jù)倉庫性能 224
任務8.1 調優(yōu)Hive參數(shù) 225
8.1.1 配置本地模式 225
8.1.2 配置嚴格模式 227
8.1.3 配置動態(tài)分區(qū) 228
8.1.4 配置并行執(zhí)行 229
8.1.5 配置Fetch抓取 229
8.1.6 配置合并文件 230
任務8.2 調優(yōu)Hive存儲 231
8.2.1 調優(yōu)文件存儲 232
8.2.2 調優(yōu)數(shù)據(jù)壓縮 232
任務8.3 調優(yōu)HiveQL語句 234
8.3.1 配置列裁剪 235
8.3.2 配置分區(qū)裁剪 235
8.3.3 配置MapJoin 236
8.3.4 配置GROUP BY 236
8.3.5 調優(yōu)表設計 237
模塊總結 237
實踐創(chuàng)新 238
檢測反饋 239
項目模塊9 數(shù)據(jù)倉庫應用實戰(zhàn) 241
任務9.1 設計數(shù)據(jù)倉庫 242
9.1.1 分析原始數(shù)據(jù)格式 242
9.1.2 創(chuàng)建數(shù)據(jù)倉庫及數(shù)據(jù)表 245
任務9.2 導入數(shù)據(jù)到聯(lián)通運營商數(shù)據(jù)倉庫中 248
9.2.1 導入數(shù)據(jù) 249
9.2.2 驗證導入結果 249
任務9.3 清洗聯(lián)通運營商數(shù)據(jù) 251
9.3.1 刪除重復數(shù)據(jù) 251
9.3.2 處理缺失值 253
9.3.3 衍生新指標 255
9.3.4 刪除無效字段 256
9.3.5 歸集數(shù)據(jù) 256
任務9.4 統(tǒng)計分析聯(lián)通運營商數(shù)據(jù) 259
9.4.1 統(tǒng)計用戶的年齡情況 259
9.4.2 統(tǒng)計用戶的發(fā)展渠道 260
9.4.3 統(tǒng)計不同活動類型的用戶數(shù)量 261
9.4.4 統(tǒng)計用戶使用短信情況 261
模塊總結 262
實踐創(chuàng)新 263
檢測反饋 264
附錄A “大數(shù)據(jù)智慧旅游”產品的背景 266
附錄B “大數(shù)據(jù)智慧旅游”項目的背景 270
附錄C “大數(shù)據(jù)智慧旅游”項目的數(shù)據(jù)處理流程 272
附錄D “大數(shù)據(jù)智慧旅游”項目的邏輯模型設計 274