大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)
定 價:69 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:王宏志[等]編著
- 出版時間:2020/1/1
- ISBN:9787111636779
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:334頁;
- 紙張:膠版紙
- 版次:1
- 開本:16K
《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》介紹了多種數(shù)據(jù)庫管理系統(tǒng)的基本概念以及代表性數(shù)據(jù)庫管理系統(tǒng)的使用和優(yōu)化方法,覆蓋了傳統(tǒng)的關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫,以及列族、鍵值、文檔、圖等NoSQL數(shù)據(jù)庫系統(tǒng)。
通過閱讀《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》,讀者可以較全面地了解支撐大數(shù)據(jù)應(yīng)用所需的數(shù)據(jù)庫管理系統(tǒng)的概念、特征和相關(guān)技術(shù),并且可以學(xué)習(xí)代表性關(guān)系數(shù)據(jù)庫系統(tǒng)的使用方法,將理論和實際相結(jié)合。
《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》可作為大數(shù)據(jù)相關(guān)專業(yè)本科生和研究生教材,也可供從事大數(shù)據(jù)相關(guān)工作的工程技術(shù)人員參考使用。
要進行有效的大數(shù)據(jù)處理和計算,選擇適當(dāng)?shù)臄?shù)據(jù)庫管理系統(tǒng)并對其進行配置、編程和調(diào)優(yōu)是非常關(guān)鍵的環(huán)節(jié)。在大數(shù)據(jù)場景下,單一的數(shù)據(jù)庫管理系統(tǒng)無法滿足所有類型數(shù)據(jù)管理的需要,因此大數(shù)據(jù)相關(guān)專業(yè)的學(xué)生和從業(yè)者需要了解不同類型的數(shù)據(jù)庫管理系統(tǒng),以解決不同場景下的實際問題。
《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》基于作者多年的教學(xué)和工程經(jīng)驗編寫而成,旨在幫助讀者掌握面向大數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)的原理和應(yīng)用方法。
大數(shù)據(jù)計算的重要支撐是有效管理數(shù)據(jù),研發(fā)以數(shù)據(jù)為核心的應(yīng)用系統(tǒng)的重要任務(wù)之一就是選擇數(shù)據(jù)庫管理系統(tǒng),對其進行配置、編程和調(diào)優(yōu)。由于大數(shù)據(jù)的多樣性,單一的數(shù)據(jù)庫管理系統(tǒng)難以滿足所有類型數(shù)據(jù)管理的需要,因而除傳統(tǒng)的成熟關(guān)系數(shù)據(jù)庫產(chǎn)品之外,還出現(xiàn)了面向不同數(shù)據(jù)和應(yīng)用特點的數(shù)據(jù)庫管理系統(tǒng),這使得數(shù)據(jù)庫管理系統(tǒng)的選擇和使用更加具有挑戰(zhàn)性。因而,掌握多種數(shù)據(jù)庫管理系統(tǒng)對于大數(shù)據(jù)領(lǐng)域從業(yè)者來說非常重要。針對這一需求,本書試圖介紹面向大數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)知識。
本書系統(tǒng)介紹了面向大數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)的基本原理和應(yīng)用,以及關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、多種NoSQL數(shù)據(jù)庫管理系統(tǒng)等。考慮到讀者的多樣性,本書針對不同種類的數(shù)據(jù)庫介紹了基本原理、使用方法和案例。
本書兼顧深度和廣度,選取典型數(shù)據(jù)庫系統(tǒng)進行了介紹。對于關(guān)系數(shù)據(jù)庫,介紹了其相關(guān)的基本概念以及典型關(guān)系數(shù)據(jù)庫系統(tǒng)MySQL。對于數(shù)據(jù)倉庫,介紹了其基本概念和基于Hadoop的數(shù)據(jù)倉庫系統(tǒng)Hive。本書還重點介紹了NoSQL數(shù)據(jù)庫系統(tǒng),并選取比較典型的鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫分別介紹了其原理與應(yīng)用。
本書適用于本科生和研究生的數(shù)據(jù)庫管理系統(tǒng),大數(shù)據(jù)管理等相關(guān)課程,也可以作為大數(shù)據(jù)系統(tǒng)開發(fā)、分布式系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等課程的補充教材或課外讀物。本書也可作為大數(shù)據(jù)技術(shù)方面的職業(yè)培訓(xùn)教材,同時,還可供大數(shù)據(jù)領(lǐng)域的從業(yè)人員參考使用。
針對不同層次的教學(xué)要求,教師可以從本書中選擇不同的內(nèi)容。如果教學(xué)偏重講授原理,可以著重講授本書的概念和原理部分,而將后面的具體系統(tǒng)作為實例。如果教學(xué)偏重講授技術(shù)和應(yīng)用,可以著重講授本書中系統(tǒng)的使用和開發(fā),而對各類數(shù)據(jù)庫管理系統(tǒng)只介紹基本概念,原理部分的深度視學(xué)時數(shù)而定。需要注意的是,數(shù)據(jù)庫系統(tǒng)原理及使用是相輔相成的:只有深入了解了原理,才能對數(shù)據(jù)庫管理系統(tǒng)進行高效應(yīng)用,對于大數(shù)據(jù)管理系統(tǒng)來說尤其如此;反之,只有真正應(yīng)用了數(shù)據(jù)庫管理系統(tǒng),才能對相關(guān)的原理有深入的認知。
本書可以獨立學(xué)習(xí),但是建議讀者有一些離散數(shù)學(xué)、計算機系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)的先修知識。盡管本書對數(shù)據(jù)庫知識進行了簡單介紹,但是其深度和廣度難以與專門的數(shù)據(jù)庫管理系統(tǒng)教材相比,建議讀者在學(xué)習(xí)第2章和第3章時與數(shù)據(jù)庫管理系統(tǒng)教材相互參考。具有一些分布式系統(tǒng)的知識對本書第4~8章的學(xué)習(xí)會有所幫助,建議讀者在學(xué)習(xí)這幾章時與分布式系統(tǒng)教材相互參考。
隨著數(shù)據(jù)量和數(shù)據(jù)形態(tài)的不斷變化,面向大數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)一直處于不斷變化之中,盡管本書盡可能兼顧深度和廣度,但是,限于筆者的水平,在內(nèi)容安排、表述等方面的不當(dāng)之處在所難免,敬請讀者在閱讀過程中不吝提出寶貴建議,以期改進本書。讀者的任何意見和建議請發(fā)至郵箱,與本書相關(guān)的信息也會在微信公眾號“大數(shù)據(jù)與數(shù)據(jù)科學(xué)家”發(fā)布。
感謝哈爾濱工業(yè)大學(xué)的李建中教授、高宏教授以及海量數(shù)據(jù)計算研究中心諸位同事的指導(dǎo),以及在專業(yè)上對我的幫助。
在本書撰寫過程中,哈爾濱工業(yè)大學(xué)的張夢、陳翔等同學(xué)在資料翻譯、搜集和整理以及文本校對、作圖等多個方面提供了幫助和支持,在此表示感謝。
感謝Ne04j中國總代理松鼠山科技有限公司對圖數(shù)據(jù)庫部分的技術(shù)支持,其專業(yè)的知識使得這一部分的質(zhì)量得到了提升。
感謝北京華育興業(yè)科技有限公司的企業(yè)專家對本書編寫提出了很多建議,并通過“教育部一華育興業(yè)產(chǎn)學(xué)合作協(xié)同育人”項目在課程和教學(xué)資源建設(shè)方面提供了大力支持。
非常感謝我的愛人黎玲利副教授一直以來對我的支持,以及在大數(shù)據(jù)管理領(lǐng)域和我的探討。在本書寫作期間,感謝我的母親和岳母幫忙料理家務(wù),照顧我的寶寶“壯壯”,使我有時間從事本書的寫作。
最后,關(guān)于大數(shù)據(jù)管理方面的研究和本書的寫作還得到了國家自然科學(xué)基金項目(編號:U1509216,U1866602)和微軟亞洲研究院的資助,在此一并表示感謝。
王宏志,哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,英才學(xué)院副院長。研究方向為大數(shù)據(jù)、數(shù)據(jù)科學(xué)、數(shù)據(jù)管理與分析。在VLDB、SIGMOD等國內(nèi)外重要會議和期刊上發(fā)表學(xué)術(shù)論文200余篇,出版學(xué)術(shù)專著兩本,其論文被SCI收錄50余次,他引千余次。獲黑龍江省自然科學(xué)一等獎和教育部高等學(xué)校科技進步一等獎各一項,獲黑龍江省青年科技獎、寶鋼優(yōu)秀教師獎等。先后主持10余個國家自然科學(xué)基金重點項目、國家支撐計劃課題、國家博士后特別資助項目等。主講的MOOC課程“大數(shù)據(jù)算法”入選第一批全國精品在線開放課程。主要社會兼職有ACMSIGMOD中國秘書長、ACM數(shù)據(jù)科學(xué)學(xué)科標(biāo)準(zhǔn)編寫組專家、中國計算機學(xué)會數(shù)據(jù)庫專業(yè)委員會常務(wù)委員、黑龍江省數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)委員會副主任委員、中國計算機學(xué)會大數(shù)據(jù)專家委員會委員等。
何震瀛,博士,復(fù)旦大學(xué)計算機科學(xué)學(xué)院副教授,中國計算機學(xué)會數(shù)據(jù)庫專業(yè)委員會委員、大數(shù)據(jù)專業(yè)委員會通信委員。主要研究興趣是數(shù)據(jù)管理和數(shù)據(jù)分析等。主持和參加20余項預(yù)研、核高基、863、國家自然科學(xué)基金項目。多年來,在數(shù)據(jù)管理、數(shù)據(jù)分析等方面進行了大量研究工作,發(fā)表論文70余篇。在海量數(shù)據(jù)管理和分析方面,作為獨立開發(fā)者完成并行海量信息查詢和分析系統(tǒng)的開發(fā),實現(xiàn)了海量信息的秒級分析;該軟件連同硬件平臺一起,獲得國家科技進步二等獎。參與研發(fā)的數(shù)據(jù)庫系統(tǒng)已應(yīng)用在國家海洋局某重大專項中(作為數(shù)據(jù)的保險箱)。
王鵬,畢業(yè)于哈爾濱工業(yè)大學(xué)軟件工程專業(yè),研究生學(xué)歷。曾就職于中國普天信息技術(shù)研究院,并擔(dān)任架構(gòu)師、技術(shù)總監(jiān)等職使。曾代表企業(yè)主導(dǎo)網(wǎng)絡(luò)存儲國家行業(yè)標(biāo)準(zhǔn)制定,擁有相關(guān)專利3項。2013年開始從事大數(shù)據(jù)領(lǐng)域的技術(shù)研發(fā)工作,F(xiàn)就職于北京華育興業(yè)科技有限公司,任首席技術(shù)官,主要從事金融、電信、電力及教育等行業(yè)海量數(shù)據(jù)分析挖掘工作。主要社會兼職包括中國大數(shù)據(jù)與智能計算產(chǎn)業(yè)聯(lián)盟副秘書長、甲骨文大數(shù)據(jù)專家、黑龍江省人工智能學(xué)會理事、四川省計算機協(xié)會理事等,致力于幫助全國高校進行大數(shù)據(jù)及人工智能專業(yè)的建設(shè)與咨詢工作。
李春靜,工學(xué)碩士,現(xiàn)任北京華育興業(yè)科技有限公司大數(shù)據(jù)講師,并承擔(dān)高校大數(shù)據(jù)技術(shù)與應(yīng)用資源建設(shè)工作。主要從事Hadoop、HBase、Hive、Spark、大數(shù)據(jù)庫、機器學(xué)習(xí)等課程研發(fā)工作。研究興趣為大數(shù)據(jù)應(yīng)用、機器學(xué)習(xí)和智能自動化。曾以首作者在國內(nèi)核心期刊上發(fā)表論文2篇,參與大型煤礦信息化項目1個、國家醫(yī)療大數(shù)據(jù)項目2個。參與編寫大數(shù)據(jù)教材1本。
本書編委會
前言
第1章 緒論
1.1 大數(shù)據(jù)的基本概念
1.2 數(shù)據(jù)庫管理系統(tǒng)
1.2.1 數(shù)據(jù)庫管理系統(tǒng)的基本概念
1.2.2 數(shù)據(jù)庫管理系統(tǒng)的發(fā)展歷史
1.2.3 數(shù)據(jù)庫管理系統(tǒng)的要素
1.3 大數(shù)據(jù)對數(shù)據(jù)庫管理系統(tǒng)的需求和挑戰(zhàn)
1.4 本書結(jié)構(gòu)
第2章 關(guān)系型數(shù)據(jù)庫管理系統(tǒng)
2.1 關(guān)系數(shù)據(jù)庫概述
2.1.1 關(guān)系模型
2.1.2 關(guān)系數(shù)據(jù)的存儲
2.1.3 關(guān)系數(shù)據(jù)庫的索引
2.1.4 關(guān)系數(shù)據(jù)庫中的查詢處理算法
2.1.5 并發(fā)控制
2.1.6 數(shù)據(jù)庫恢復(fù)
2.2 關(guān)系數(shù)據(jù)庫MySQL概述
2.3 MySQL應(yīng)用
2.3.1 SQL概述
2.3.2 數(shù)據(jù)定義語句
2.3.3 數(shù)據(jù)處理語句
2.3.4 事務(wù)和鎖定聲明
2.3.5 其他
2.4 存儲過程
2.4.1 概述
2.4.2 建立存儲過程
2.4.3 調(diào)用存儲過程
2.4.4 查詢存儲過程
2.4.5 刪除存儲過程
2.5 視圖
2.6 分區(qū)
2.7 復(fù)制
2.8 MySQL的Java客戶端JDBC
2.8.1 JDBC概述
2.8.2 JDBCAPI
2.8.3 Java通過JDBCAPI操作MySQL
第3章 數(shù)據(jù)倉庫Hive
3.1 數(shù)據(jù)倉庫概述
3.1.1 數(shù)據(jù)倉庫的概念和特征
3.1.2 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
3.1.3 數(shù)據(jù)倉庫的模型
3.1.4 數(shù)據(jù)倉庫關(guān)鍵技術(shù)
3.1.5 數(shù)據(jù)倉庫與大數(shù)據(jù)
3.2 Hive概述
3.2.1 Hive存儲結(jié)構(gòu)
3.2.2 Hive體系結(jié)構(gòu)
3.2.3 Hive的任務(wù)執(zhí)行流程
3.3 Hive的特征
3.3.1 一致性
3.3.2 可擴展性
3.3.3 事務(wù)
3.4 Hive的基本概念
3.4.1 基本數(shù)據(jù)類型
3.4.2 數(shù)據(jù)類型轉(zhuǎn)換
3.4.3 復(fù)雜數(shù)據(jù)類型
3.4.4 文本文件數(shù)據(jù)編碼
3.4.5 數(shù)據(jù)讀取模式
3.4.6 文件格式與壓縮
3.4.7 Hive壓縮
3.4.8 Hive關(guān)鍵字
3.5 Hive的使用
3.5.1 Hive命令
3.5.2 HiveDDL
3.5.3 HiveDML
3.5.4 HiveQL基本查詢
3.5.5 Hive函數(shù)
3.5.6 HiveQL高級查詢
3.6 面向大數(shù)據(jù)的優(yōu)化策略
3.6.1 分桶
3.6.2 視圖和索引
3.6.3 模式設(shè)計
3.7 Hive的調(diào)優(yōu)
3.7.1 使用EXPLAIN查看執(zhí)行計劃
3.7.2 Hive配置管理
3.7.3 限制調(diào)整
3.7.4 JOIN優(yōu)化
3.7.5 本地模式
3.7.6 并行執(zhí)行
3.7.7 嚴(yán)格模式
3.7.8 調(diào)整Mapper和Reducer個數(shù)
3.7.9 JVM重用
3.7.10 動態(tài)分區(qū)調(diào)整
3.7.11 推測執(zhí)行
3.7.12 單個MapReduce中的多個GROUPBY
3.7.13 虛擬列
3.8 Java通過JDBC操作Hive
……
第4章 NoSQL概述
第5章 鍵值數(shù)據(jù)庫
第6章 列族數(shù)據(jù)庫
第7章 非關(guān)系型文檔數(shù)據(jù)庫
第8章 非關(guān)系型圖數(shù)據(jù)庫