數(shù)字化轉(zhuǎn)型實(shí)踐:構(gòu)建云原生大數(shù)據(jù)平臺(tái)
定 價(jià):109 元
叢書名:數(shù)字化轉(zhuǎn)型理論與實(shí)踐系列叢書
- 作者:金鑫
- 出版時(shí)間:2022/8/1
- ISBN:9787121440069
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP393.027
- 頁碼:332
- 紙張:
- 版次:01
- 開本:16開
21 世紀(jì),互聯(lián)網(wǎng)行業(yè)的爆發(fā)開啟了全球數(shù)據(jù)量急劇增長的新時(shí)代,數(shù)據(jù)已經(jīng)成為驅(qū)動(dòng)企業(yè)數(shù)字化轉(zhuǎn)型的核心力量。整個(gè)數(shù)據(jù)行業(yè)的技術(shù)能力不斷提升,從數(shù)據(jù)庫到數(shù)據(jù)倉庫,再到開源大數(shù)據(jù),都在經(jīng)濟(jì)社會(huì)中發(fā)揮著極其重要的作用。近年來,新興數(shù)據(jù)技術(shù)與云計(jì)算相互輔助,共同發(fā)展,誕生了一系列云原生數(shù)據(jù)服務(wù),讓企業(yè)能夠突破傳統(tǒng)模式的局限,專注于業(yè)務(wù),降本增效。本書以全球前沿的云原生服務(wù)為基礎(chǔ),詳細(xì)展現(xiàn)了如何將數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)引入、批量數(shù)據(jù)處理、實(shí)時(shí)數(shù)據(jù)處理、數(shù)據(jù)倉庫、數(shù)據(jù)可視化和機(jī)器學(xué)習(xí)等核心要素綜合起來,逐步構(gòu)建一個(gè)高效的大數(shù)據(jù)服務(wù)平臺(tái)。
金鑫,微軟技術(shù)專家,于2000年加入微軟,專注于研究企業(yè)級應(yīng)用和分布式系統(tǒng)。近年來,作為微軟公有云架構(gòu)和開發(fā)技術(shù)領(lǐng)域?qū)<遥饕獜氖挛④浽茢?shù)據(jù)平臺(tái)和開發(fā)平臺(tái)的建設(shè)工作,致力于為客戶提供云原生解決方案及技術(shù)咨詢。武帥,微軟技術(shù)專家,于2011年加入微軟,一直從事開發(fā)測試技術(shù)和公有云的研究及咨詢工作。目前專注于云計(jì)算的行業(yè)落地,致力于物聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等新興技術(shù)助力企業(yè)數(shù)字化轉(zhuǎn)型的工作。
第1章 數(shù)字化轉(zhuǎn)型與數(shù)據(jù)技術(shù) 001
1.1 數(shù)字化轉(zhuǎn)型 002
1.2 基于數(shù)據(jù)進(jìn)行數(shù)字化轉(zhuǎn)型 004
1.3 數(shù)據(jù)倉庫 006
1.4 大數(shù)據(jù) 009
1.5 數(shù)據(jù)湖 013
1.6 云計(jì)算中數(shù)據(jù)技術(shù)的演進(jìn) 016
1.7 本書目標(biāo) 018
第2章 數(shù)據(jù)存儲(chǔ) 019
2.1 數(shù)據(jù)存儲(chǔ)的發(fā)展與趨勢 020
2.1.1 集中式文件系統(tǒng) 020
2.1.2 網(wǎng)絡(luò)文件系統(tǒng) 021
2.1.3 分布式文件系統(tǒng) 022
2.1.4 云原生存儲(chǔ) 024
2.2 Azure Blob對象存儲(chǔ) 025
2.2.1 數(shù)據(jù)冗余策略 027
2.2.2 分層存儲(chǔ) 030
2.2.3 兼容HDFS的WASB文件系統(tǒng) 031
2.3 創(chuàng)建存儲(chǔ)賬號 033
2.3.1 訂閱 033
2.3.2 資源組 034
2.3.3 存儲(chǔ)賬號 036
2.4 Azure數(shù)據(jù)湖存儲(chǔ) 039
2.4.1 分層命名空間 039
2.4.2 兼容HDFS的ABFS文件系統(tǒng) 040
2.5 創(chuàng)建數(shù)據(jù)湖存儲(chǔ) 043
2.6 基于HDFS訪問數(shù)據(jù)湖存儲(chǔ) 045
2.7 在HDInsight中訪問數(shù)據(jù)湖存儲(chǔ) 058
2.8 本章小結(jié) 064
第3章 數(shù)據(jù)引入 065
3.1 什么是數(shù)據(jù)引入 066
3.2 數(shù)據(jù)引入面臨的挑戰(zhàn) 067
3.3 數(shù)據(jù)引入工具 069
3.4 數(shù)據(jù)工廠 071
3.4.1 什么是數(shù)據(jù)工廠 071
3.4.2 創(chuàng)建數(shù)據(jù)工廠 072
3.4.3 數(shù)據(jù)工廠的主要組件 076
3.5 引入數(shù)據(jù) 084
3.5.1 數(shù)據(jù)復(fù)制 084
3.5.2 管道設(shè)計(jì) 088
3.5.3 參數(shù)化 098
3.5.4 監(jiān)控 100
3.6 本章小結(jié) 102
第4章 批量數(shù)據(jù)處理 103
4.1 數(shù)據(jù)處理概述 104
4.2 數(shù)據(jù)處理引擎 105
4.2.1 MapReduce 105
4.2.2 Spark 107
4.3 Databricks 111
4.4 使用Databricks處理批量數(shù)據(jù) 115
4.5 Databricks的特性 121
4.5.1 依賴庫管理 121
4.5.2 Databricks文件系統(tǒng)(DBFS) 124
4.5.3 密鑰管理 126
4.5.4 Delta Lake 129
4.6 使用數(shù)據(jù)工廠處理批量數(shù)據(jù) 134
4.6.1 設(shè)計(jì)Data Flow 134
4.6.2 Data Flow的設(shè)計(jì)模式 144
4.6.3 如何選擇Data Flow與Databricks 145
4.7 本章小結(jié) 146
第5章 實(shí)時(shí)數(shù)據(jù)處理 147
5.1 什么是實(shí)時(shí)數(shù)據(jù)處理 148
5.2 消息隊(duì)列 149
5.3 Kafka的使用 153
5.3.1 創(chuàng)建虛擬網(wǎng)絡(luò) 153
5.3.2 創(chuàng)建Kafka集群 155
5.3.3 配置IP advertising 157
5.3.4 生產(chǎn)者發(fā)送數(shù)據(jù) 159
5.4 實(shí)時(shí)數(shù)據(jù)處理引擎 166
5.5 使用Spark Structured Streaming處理實(shí)時(shí)數(shù)據(jù) 171
5.5.1 連通Kafka與Databricks 171
5.5.2 在Databricks中處理數(shù)據(jù) 174
5.5.3 使用Cosmos DB保存數(shù)據(jù) 176
5.6 Event Hub 182
5.7 本章小結(jié) 190
第6章 數(shù)據(jù)倉庫 191
6.1 什么是數(shù)據(jù)倉庫 192
6.2 云原生數(shù)據(jù)倉庫 194
6.3 Synapse Analytics 199
6.3.1 什么是Synapse Analytics 199
6.3.2 Synapse SQL的架構(gòu) 200
6.3.3 創(chuàng)建Synapse工作區(qū) 208
6.3.4 創(chuàng)建SQL池 210
6.3.5 連接SQL池 212
6.4 數(shù)據(jù)加載 214
6.4.1 數(shù)據(jù)加載方式 214
6.4.2 使用COPY導(dǎo)入數(shù)據(jù) 220
6.5 Synapse SQL的資源和負(fù)荷管理 227
6.5.1 資源類 227
6.5.2 并發(fā)槽 229
6.5.3 最大并發(fā)查詢數(shù) 231
6.5.4 工作負(fù)荷組 232
6.5.5 工作負(fù)荷分類器 239
6.6 數(shù)據(jù)倉庫發(fā)展趨勢 242
6.6.1 挑戰(zhàn) 242
6.6.2 趨勢 244
6.7 Synapse Analytics的高級特性 245
6.7.1 Synapse 工作室 246
6.7.2 數(shù)據(jù)中心 247
6.7.3 無服務(wù)器SQL池 248
6.7.4 托管Spark 252
6.8 本章小結(jié) 257
第7章 數(shù)據(jù)可視化 258
7.1 數(shù)據(jù)可視化概述 259
7.2 數(shù)據(jù)可視化工具 260
7.3 Power BI 263
7.3.1 什么是Power BI 263
7.3.2 Power BI的構(gòu)件 265
7.3.3 使用Power BI Desktop 268
7.3.4 使用Power BI服務(wù) 281
7.4 本章小結(jié) 285
第8章 機(jī)器學(xué)習(xí) 286
8.1 機(jī)器學(xué)習(xí)概述 287
8.1.1 算法類型 287
8.1.2 業(yè)務(wù)場景 290
8.2 機(jī)器學(xué)習(xí)的流程 291
8.3 機(jī)器學(xué)習(xí)的挑戰(zhàn)與云原生平臺(tái)的優(yōu)勢 293
8.4 云原生機(jī)器學(xué)習(xí)平臺(tái) 296
8.4.1 創(chuàng)建工作區(qū) 297
8.4.2 創(chuàng)建數(shù)據(jù)存儲(chǔ)庫 298
8.4.3 創(chuàng)建數(shù)據(jù)集 301
8.4.4 創(chuàng)建計(jì)算資源 303
8.5 機(jī)器學(xué)習(xí)設(shè)計(jì)器 305
8.6 自動(dòng)化機(jī)器學(xué)習(xí) 310
8.7 本章小結(jié) 315
參考文獻(xiàn) 316