大數(shù)據(jù)技術(shù)基礎(chǔ)教程
定 價(jià):49.8 元
- 作者:高永平
- 出版時(shí)間:2024/3/1
- ISBN:9787121475078
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:272
- 紙張:
- 版次:01
- 開本:16開
本書系統(tǒng)介紹大數(shù)據(jù)技術(shù)的原理與應(yīng)用,主要內(nèi)容包括基本概念、分布式計(jì)算編程基礎(chǔ)、Hadoop系統(tǒng)、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫(kù)HBase、分布式計(jì)算框架MapReduce、數(shù)據(jù)倉(cāng)庫(kù)Hive、流計(jì)算Spark Streaming、數(shù)據(jù)可視化、大數(shù)據(jù)的電商精準(zhǔn)營(yíng)銷案例、好友推薦案例等章節(jié),涵蓋了海量數(shù)據(jù)的高效存儲(chǔ)、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和隨機(jī)訪問、分布式并行編程、數(shù)據(jù)倉(cāng)庫(kù)、實(shí)時(shí)計(jì)算、數(shù)據(jù)可視化、電商精準(zhǔn)營(yíng)銷、好友推薦等各個(gè)方面的內(nèi)容。本書以簡(jiǎn)單易懂的語(yǔ)言、生動(dòng)有趣的實(shí)例和圖形展示知識(shí)點(diǎn),將概念、原理與應(yīng)用融會(huì)貫通,并對(duì)大數(shù)據(jù)工具軟件進(jìn)行了細(xì)致的梳理。
高永平,男,漢族,江西峽江,中共黨員;碩士生導(dǎo)師、副教授;多年來(lái)一直從事計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的教學(xué)與科研工作。主要研究方向:數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用、軟件工程與知識(shí)工程。主講了本課程和研究生的主要課程為:《java程序設(shè)計(jì)(雙語(yǔ))》、《數(shù)據(jù)結(jié)構(gòu)與算法》、《Web程序設(shè)計(jì)》、《面向?qū)ο蟪绦蛟O(shè)計(jì)》、《軟件工程》、《高級(jí)軟件工程》、《數(shù)據(jù)庫(kù)原理與應(yīng)用》等。在國(guó)內(nèi)外期刊公開發(fā)表各類科研和教研論文23篇,其中被EI檢索論文8篇,核心期刊發(fā)表論文4篇。主持或作為主要參與人的科研和教研項(xiàng)目18項(xiàng),其中國(guó)家自然2項(xiàng),省級(jí)科研項(xiàng)目9項(xiàng),省級(jí)教研7項(xiàng);另外還有橫向課題5項(xiàng)。獲得省高?萍汲晒泉(jiǎng)1項(xiàng),省教學(xué)成果獎(jiǎng)二等獎(jiǎng)和三等獎(jiǎng)各1項(xiàng);校教學(xué)成果獎(jiǎng)5項(xiàng)。
第1章 緒論 1
1.1 大數(shù)據(jù)的發(fā)展歷程 1
1.2 大數(shù)據(jù)的概念 4
1.3 大數(shù)據(jù)的特征 5
1.4 大數(shù)據(jù)的應(yīng)用 6
1.5 大數(shù)據(jù)分析方法 10
1.6 大數(shù)據(jù)面臨的挑戰(zhàn) 11
習(xí)題 12
第2章 分布式計(jì)算編程基礎(chǔ) 13
2.1 分布式系統(tǒng) 13
2.2 分布式計(jì)算架構(gòu) 15
2.3 分布式文件系統(tǒng) 16
2.4 CAP 定理 18
習(xí)題 21
第3章 大數(shù)據(jù)處理框架 Hadoop 22
3.1 Hadoop簡(jiǎn)介 22
3.2 Hadoop 生態(tài)系統(tǒng) 24
3.3 Hadoop 的安裝與使用 31
習(xí)題 40
第4章 Hadoop 分布式文件系統(tǒng) 42
4.1 HDFS 簡(jiǎn)介 42
4.2 HDFS的設(shè)計(jì)原則 43
4.3 HDFS 的核心概念 44
4.4 HDFS 的體系結(jié)構(gòu) 45
4.5 HDFS 的存儲(chǔ)原理 47
4.6 HDFS 的數(shù)據(jù)讀寫流程 49
4.7 HDFS 的編程實(shí)現(xiàn) 53
習(xí)題 57
第5章 分布式數(shù)據(jù)庫(kù) HBase 59
5.1 HBase 簡(jiǎn)介 59
5.2 HBase 數(shù)據(jù)模型 60
5.3 HBase 的系統(tǒng)架構(gòu) 64
5.4 HBase 表結(jié)構(gòu)設(shè)計(jì) 67
5.5 HBase 的數(shù)據(jù)讀寫流程 69
5.6 HBase 編程實(shí)踐 72
習(xí)題 76
第6章 分布式計(jì)算框架 MapReduce 77
6.1 MapReduce 簡(jiǎn)介 77
6.2 MapReduce 的計(jì)算模型 77
6.3 MapReduce 的工作原理 78
6.4 MapReduce 編程實(shí)踐 81
習(xí)題 89
第7章 數(shù)據(jù)倉(cāng)庫(kù) Hive 91
7.1 Hive 簡(jiǎn)介 91
7.2 Hive 的架構(gòu) 93
7.3 Hive 的數(shù)據(jù)類型及應(yīng)用 95
7.4 Hive 的數(shù)據(jù)模型 97
7.5 DDL 的應(yīng)用 98
7.6 DML 的應(yīng)用 101
7.7 JDBC 訪問 103
習(xí)題 104
第8章 Spark Streaming 105
8.1 流計(jì)算概述 105
8.2 流計(jì)算的概念 106
8.3 Spark 概述 107
8.4 Spark Standalone 模式的架構(gòu) 108
8.5 Spark Streaming簡(jiǎn)介 110
8.6 編寫 Spark Streaming 程序的基本步驟 111
8.7 創(chuàng)建 StreamingContext 對(duì)象 111
8.8 Spark Streaming 數(shù)據(jù)源 112
8.9 Spark Streaming 程序示例 113
習(xí)題 116
第9章 數(shù)據(jù)可視化 117
9.1 可視化概述 117
9.2 可視化的作用 118
9.3 可視化工具 119
9.4 可視化典型案例 125
習(xí)題 126
第10章 基于大數(shù)據(jù)的電商精準(zhǔn)營(yíng)銷 128
10.1 數(shù)據(jù)預(yù)處理概述 128
10.2 數(shù)據(jù)探索與可視化 132
第11章 好友推薦案例分析 140
11.1 任務(wù)需求 140
11.2 準(zhǔn)備工作 140
11.3 創(chuàng)建 Maven 項(xiàng)目 143
11.4 FriendRecommend 程序的實(shí)現(xiàn) 148
11.5 運(yùn)行程序與結(jié)果驗(yàn)證 157
參考文獻(xiàn) 161