Hadoop大數(shù)據(jù)開發(fā)基礎(chǔ)(第2版)(微課版)
定 價(jià):59.8 元
- 作者:張軍,張良均
- 出版時(shí)間:2022/8/1
- ISBN:9787115575623
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁碼:0
- 紙張:
- 版次:02
- 開本:16開
本書以任務(wù)為導(dǎo)向,較為全面地介紹Hadoop大數(shù)據(jù)技術(shù)及其生態(tài)系統(tǒng)組件Hive、HBase的相關(guān)知識。全書共8章,具體內(nèi)容包括Hadoop介紹、Hadoop集群的搭建及配置、Hadoop基礎(chǔ)操作、MapReduce入門編程、MapReduce進(jìn)階編程、Hive數(shù)據(jù)倉庫、HBase分布式數(shù)據(jù)庫,以及一個(gè)項(xiàng)目案例(電影網(wǎng)站用戶影評分析)。本書的第2~7章包含實(shí)訓(xùn)與課后習(xí)題,讀者可通過練習(xí)和操作實(shí)踐,鞏固所學(xué)的內(nèi)容。
本書可用于“1+X”證書制度試點(diǎn)工作中的大數(shù)據(jù)應(yīng)用開發(fā)(Python)職業(yè)技能等級證書(中級)的教學(xué)和培訓(xùn),也可以作為高校大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的教材和大數(shù)據(jù)技術(shù)愛好者的自學(xué)用書。
1. 全書緊扣任務(wù)需求展開,不堆積知識點(diǎn)
2. 隨書附帶源碼,微課視頻,方便讀者系統(tǒng)學(xué)習(xí)并動(dòng)手實(shí)踐
3. 實(shí)戰(zhàn)案例豐富
4. “1+X”大數(shù)據(jù)應(yīng)用開發(fā)(Python)職業(yè)技能等級證書(中級)配套教材
張軍,副教授,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)技術(shù)與應(yīng)用技術(shù)、高職教育教學(xué)改革,F(xiàn)任廣東科學(xué)技術(shù)職業(yè)學(xué)院計(jì)算機(jī)學(xué)院副院長,廣東省品牌專業(yè)(大數(shù)據(jù)技術(shù))負(fù)責(zé)人,大數(shù)據(jù)省級教學(xué)團(tuán)隊(duì)負(fù)責(zé)人,軟件技術(shù)中國特色高水平專業(yè)群建設(shè)項(xiàng)目、首批國家級職業(yè)教育教學(xué)創(chuàng)新團(tuán)隊(duì)核心骨干成員,廣東省農(nóng)村科技特派員,廣東科學(xué)技術(shù)職業(yè)學(xué)院專業(yè)領(lǐng)軍人才,兼任廣東省大數(shù)據(jù)產(chǎn)教融合協(xié)會副秘書長。
張良均,資深大數(shù)據(jù)專家,廣東泰迪智能科技股份有限公司董事長,國家科技部入庫技術(shù)專家,教育部全國專業(yè)學(xué)位水平評估專家,工信部教育與考試中心入庫專家,中國工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會理事,廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會副理事長,廣東省高等職業(yè)教育教學(xué)指導(dǎo)委員會委員,華南師范大學(xué)、中南財(cái)經(jīng)政法大學(xué)等40余所高校校外碩導(dǎo)或兼職教授,泰迪杯全國數(shù)據(jù)挖掘挑戰(zhàn)賽發(fā)起人。曾在國內(nèi)外重要學(xué)術(shù)刊物上發(fā)表學(xué)術(shù)論文10余篇,主導(dǎo)編寫圖書專著60余部,其中獲普通高等教育“十一五”規(guī)劃教材一部,“十三五”職業(yè)教育國家規(guī)劃教材一部;參與標(biāo)準(zhǔn)建設(shè)4項(xiàng),主持國家級課題1項(xiàng)、省部級課題4項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書,具有信訪、電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景,并榮獲中國產(chǎn)學(xué)研合作促進(jìn)獎(jiǎng)、中國南方電網(wǎng)公司發(fā)明專利一等獎(jiǎng)、廣東省農(nóng)業(yè)技術(shù)推廣二等獎(jiǎng)、廣州市荔灣區(qū)科學(xué)技術(shù)進(jìn)步獎(jiǎng)。
第 1章 Hadoop介紹 1
任務(wù)1.1 認(rèn)識Hadoop框架 1
1.1.1 什么是Hadoop 1
1.1.2 了解Hadoop的發(fā)展歷史 2
1.1.3 了解Hadoop的特點(diǎn) 4
任務(wù)1.2 了解Hadoop核心組件 4
1.2.1 了解分布式文件系統(tǒng)——HDFS 4
1.2.2 了解分布式計(jì)算框架——MapReduce 7
1.2.3 了解集群資源管理器——YARN 9
任務(wù)1.3 了解Hadoop生態(tài)系統(tǒng) 12
任務(wù)1.4 了解Hadoop應(yīng)用場景 14
小結(jié) 15
課后習(xí)題 15
第 2章 Hadoop集群的搭建及配置 17
任務(wù)2.1 安裝及配置虛擬機(jī) 18
2.1.1 創(chuàng)建Linux虛擬機(jī) 18
2.1.2 設(shè)置固定IP地址 26
2.1.3 遠(yuǎn)程連接虛擬機(jī) 29
2.1.4 配置本地YUM源及安裝常用軟件 31
任務(wù)2.2 搭建Hadoop完全分布式集群 35
2.2.1 在Linux下安裝Java 36
2.2.2 修改配置文件 37
2.2.3 克隆虛擬機(jī) 41
2.2.4 配置SSH免密碼登錄 44
2.2.5 配置時(shí)間同步服務(wù) 45
2.2.6 啟動(dòng)和關(guān)閉Hadoop集群 46
2.2.7 監(jiān)控Hadoop集群 47
小結(jié) 49
實(shí)訓(xùn) 50
實(shí)訓(xùn)1 修改master虛擬機(jī)的IP地址 50
實(shí)訓(xùn)2 編寫Shell腳本同步集群時(shí)間 50
課后習(xí)題 51
第3章 Hadoop基礎(chǔ)操作 53
任務(wù)3.1 認(rèn)識Hadoop安全模式 54
3.1.1 了解Hadoop安全模式 54
3.1.2 查看、解除和開啟Hadoop安全模式 55
任務(wù)3.2 查看Hadoop集群的基本信息 56
3.2.1 查詢集群的存儲系統(tǒng)信息 57
3.2.2 查詢集群的計(jì)算資源信息 60
任務(wù)3.3 上傳文件到HDFS目錄 62
3.3.1 了解HDFS 62
3.3.2 HDFS的基本操作 65
3.3.3 任務(wù)實(shí)現(xiàn) 68
任務(wù)3.4 運(yùn)行首個(gè)MapReduce任務(wù) 70
3.4.1 了解Hadoop官方的示例程序包 70
3.4.2 提交MapReduce任務(wù)給集群運(yùn)行 70
任務(wù)3.5 管理多個(gè)MapReduce任務(wù) 74
3.5.1 查詢MapReduce任務(wù) 74
3.5.2 中斷MapReduce任務(wù) 76
小結(jié) 78
實(shí)訓(xùn) 79
實(shí)訓(xùn)1 統(tǒng)計(jì)文件中所有單詞長度的標(biāo)準(zhǔn)差 79
實(shí)訓(xùn)2 查詢與中斷MapReduce任務(wù) 79
課后習(xí)題 80
第4章 MapReduce入門編程 82
任務(wù)4.1 在IntelliJ IDEA中搭建MapReduce開發(fā)環(huán)境 83
4.1.1 在Windows下安裝Java 83
4.1.2 下載與安裝IntelliJ IDEA 86
4.1.3 創(chuàng)建MapReduce工程 88
4.1.4 配置MapReduce環(huán)境 90
任務(wù)4.2 通過源碼初識MapReduce編程 92
4.2.1 了解MapReduce工作原理及核心組成 92
4.2.2 了解MapReduce實(shí)現(xiàn)詞頻統(tǒng)計(jì)的執(zhí)行流程 93
4.2.3 讀懂官方提供的WordCount源碼 94
任務(wù)4.3 統(tǒng)計(jì)網(wǎng)站每日的訪問次數(shù) 100
4.3.1 分析思路與處理邏輯 100
4.3.2 編寫核心模塊代碼 101
4.3.3 任務(wù)實(shí)現(xiàn) 102
任務(wù)4.4 將網(wǎng)站每日訪問次數(shù)根據(jù)訪問次數(shù)進(jìn)行升序排序 104
4.4.1 分析思路與處理邏輯 104
4.4.2 編寫核心模塊代碼 105
4.4.3 任務(wù)實(shí)現(xiàn) 106
小結(jié) 108
實(shí)訓(xùn) 109
實(shí)訓(xùn)1 使用MapReduce編程統(tǒng)計(jì)某超市1月商品被購買的次數(shù) 109
實(shí)訓(xùn)2 使用MapReduce編程統(tǒng)計(jì)各科目的平均成績 109
課后習(xí)題 110
第5章 MapReduce進(jìn)階編程 113
任務(wù)5.1 篩選日志文件并生成序列化文件 113
5.1.1 設(shè)置MapReduce輸入格式 114
5.1.2 設(shè)置MapReduce輸出格式 115
5.1.3 任務(wù)實(shí)現(xiàn) 116
任務(wù)5.2 使用Hadoop Java API讀取序列化文件 118
5.2.1 使用FileSystem API管理文件夾 118
5.2.2 使用FileSystem API操作文件 122
5.2.3 使用FileSystem API讀/寫數(shù)據(jù) 124
5.2.4 任務(wù)實(shí)現(xiàn) 126
任務(wù)5.3 優(yōu)化日志文件統(tǒng)計(jì)程序 128
5.3.1 自定義鍵值類型 128
5.3.2 初步探索Combiner 132
5.3.3 淺析Partitioner 134
5.3.4 自定義計(jì)數(shù)器 137
5.3.5 任務(wù)實(shí)現(xiàn) 139
任務(wù)5.4 在IntelliJ IDEA中打包并提交MapReduce程序 142
5.4.1 傳遞參數(shù) 142
5.4.2 使用Hadoop輔助類ToolRunner 144
5.4.3 自動(dòng)打包并提交MapReduce任務(wù) 145
5.4.4 任務(wù)實(shí)現(xiàn) 148
小結(jié) 150
實(shí)訓(xùn) 150
實(shí)訓(xùn)1 使用MapReduce編程統(tǒng)計(jì)各科目成績最高的學(xué)生 150
實(shí)訓(xùn)2 使用MapReduce編程篩選出指定出版年份的圖書 151
課后習(xí)題 152
第6章 Hive數(shù)據(jù)倉庫 155
任務(wù)6.1 認(rèn)識Hive數(shù)據(jù)倉庫 156
6.1.1 什么是Hive 156
6.1.2 了解Hive與傳統(tǒng)數(shù)據(jù)庫的對比 156
6.1.3 了解Hive系統(tǒng)架構(gòu) 158
6.1.4 了解Hive數(shù)據(jù)模型 159
6.1.5 了解Hive執(zhí)行流程 159
任務(wù)6.2 訪問Hive的3種方式 160
6.2.1 設(shè)置內(nèi)嵌模式 160
6.2.2 設(shè)置直連數(shù)據(jù)庫模式 162
6.2.3 設(shè)置遠(yuǎn)程模式 165
任務(wù)6.3 實(shí)現(xiàn)Hive表的創(chuàng)建與修改 167
6.3.1 了解Hive數(shù)據(jù)定義語言的基本語法 168
6.3.2 創(chuàng)建表基本操作 171
6.3.3 修改表基本操作 174
任務(wù)6.4 實(shí)現(xiàn)Hive表中數(shù)據(jù)的增刪查改 175
6.4.1 了解Hive數(shù)據(jù)操作語言的基本語法 175
6.4.2 向數(shù)據(jù)表中裝載文件 177
6.4.3 查詢數(shù)據(jù) 179
6.4.4 插入數(shù)據(jù) 182
6.4.5 刪除表中數(shù)據(jù) 183
任務(wù)6.5 掉話率Top20基站統(tǒng)計(jì) 184
6.5.1 分析基本思路 184
6.5.2 任務(wù)實(shí)現(xiàn) 184
小結(jié) 186
實(shí)訓(xùn) 186
實(shí)訓(xùn)1 查詢圖書館圖書的被借閱次數(shù)及讀者借閱圖書的次數(shù) 186
實(shí)訓(xùn)2 Hive實(shí)現(xiàn)表的連接及信息查詢處理 187
課后習(xí)題 188
第7章 HBase分布式數(shù)據(jù)庫 190
任務(wù)7.1 認(rèn)識HBase分布式數(shù)據(jù)庫 191
7.1.1 什么是HBase 191
7.1.2 了解HBase系統(tǒng)架構(gòu) 193
7.1.3 了解HBase數(shù)據(jù)模型 195
7.1.4 了解HBase讀/寫流程 196
任務(wù)7.2 安裝部署HBase集群 198
7.2.1 了解并安裝ZooKeeper 198
7.2.2 安裝及配置HBase集群 203
任務(wù)7.3 掌握HBase常用的Shell命令 206
7.3.1 修改與刪除表 208
7.3.2 查詢表數(shù)據(jù) 210
任務(wù)7.4 使用HBase Java API實(shí)現(xiàn)表設(shè)計(jì) 212
7.4.1 創(chuàng)建Java項(xiàng)目 213
7.4.2 實(shí)現(xiàn)表的創(chuàng)建 215
7.4.3 向表中插入數(shù)據(jù) 216
任務(wù)7.5 查詢分析通話記錄數(shù)據(jù) 217
7.5.1 設(shè)計(jì)表并分析查詢需求 217
7.5.2 任務(wù)實(shí)現(xiàn) 218
小結(jié) 225
實(shí)訓(xùn) 225
實(shí)訓(xùn)1 使用HBase Shell命令創(chuàng)建學(xué)生表并插入數(shù)據(jù) 225
實(shí)訓(xùn)2 使用HBase Java API對HBase數(shù)據(jù)庫的表進(jìn)行操作 226
課后習(xí)題 227
第8章 項(xiàng)目案例:電影網(wǎng)站用戶影評分析 228
任務(wù)8.1 了解數(shù)據(jù)字段并分析需求 228
8.1.1 了解數(shù)據(jù)字段 228
8.1.2 統(tǒng)計(jì)分析需求描述 230
任務(wù)8.2 多維度分析用戶影評 230
8.2.1 創(chuàng)建并配置工程項(xiàng)目 230
8.2.2 計(jì)算評分次數(shù)最多的10部電影及評分次數(shù)并分析 232
8.2.3 計(jì)算不同性別評分最高的10部電影及評分并分析 240
8.2.4 計(jì)算指定電影各年齡段的平均影評并分析 250
8.2.5 計(jì)算影評庫中各種類型電影中評分最高的5部電影并分析 252
小結(jié) 258
附錄A Linux常用操作命令 259
附錄B Hadoop集群組件的常用端口及其說明 263