國之重器出版工程 大數(shù)據(jù)存儲技術(shù)
本書由淺入深,層層深入,從基本原理著手,逐步過渡到大數(shù)據(jù)存儲的新技術(shù)的發(fā)展。本書以扎實的理論分析為基礎(chǔ),系統(tǒng)、深入地介紹了分布式文件系統(tǒng)和分布式鍵值存儲的基本原理及其關(guān)鍵問題與解決手段、大數(shù)據(jù)存儲系統(tǒng)的關(guān)聯(lián)技術(shù)與進展,包括基于群組的網(wǎng)絡(luò)文件共享、存儲系統(tǒng)的容災(zāi)、重復(fù)數(shù)據(jù)刪除技術(shù)和大數(shù)據(jù)糾刪碼存儲技術(shù)。對大數(shù)據(jù)存儲技術(shù)的研究和應(yīng)用有積極的促進作用。本書的讀者對象主要為高等院校的學(xué)者和研究生,數(shù)據(jù)存儲架構(gòu)師、咨詢顧問,以及企業(yè)內(nèi)部的相關(guān)業(yè)務(wù)人員。
本書的理論及學(xué)術(shù)水平較高。區(qū)別于一般已出版的大數(shù)據(jù)圖書,本書的特色是深入分析大數(shù)據(jù)存儲理論和關(guān)鍵技術(shù),向讀者展示如何結(jié)合中國計算機當前產(chǎn)業(yè)特點,開展與大數(shù)據(jù)存儲系統(tǒng)相關(guān)的自主創(chuàng)新性研制工作,為高校師生和從事大數(shù)據(jù)技術(shù)開發(fā)的工程人員提供理論指導(dǎo)和實務(wù)操作指南。
陳康
清華大學(xué)計算機系研究員,主要從事分布式系統(tǒng)、存儲系統(tǒng)、大數(shù)據(jù)系統(tǒng)方面的研究工作。發(fā)表學(xué)術(shù)論文50余篇,曾獲得國家技術(shù)發(fā)明獎二等獎、中國電子學(xué)會科學(xué)技術(shù)獎科技進步特等獎和一等獎、中創(chuàng)軟件人才獎等獎項。
武永衛(wèi)
清華大學(xué)計算機系教授,主要從事并行與分布式系統(tǒng)方面的研究工作。發(fā)表學(xué)術(shù)論文100余篇,入選國家“萬人計劃”科技創(chuàng)新領(lǐng)軍人才,曾獲得國家科學(xué)技術(shù)進步獎二等獎、國家技術(shù)發(fā)明獎二等獎、中國電子學(xué)會科學(xué)技術(shù)獎科技進步特等獎和一等獎等獎項。
余宏亮
清華大學(xué)計算機系副研究員,主要從事并行系統(tǒng)、分布式系統(tǒng)、存儲系統(tǒng)方面的研究工作。發(fā)表學(xué)術(shù)論文40余篇,曾獲得國家科學(xué)技術(shù)進步獎二等獎、國家技術(shù)發(fā)明獎二等獎、中國電子學(xué)會科學(xué)技術(shù)獎技術(shù)發(fā)明一等獎、高等學(xué)?茖W(xué)研究優(yōu)秀成果獎科學(xué)技術(shù)進步獎一等獎等獎項。
張廣艷
清華大學(xué)計算機系長聘副教授、博士生導(dǎo)師,主要從事大數(shù)據(jù)存儲與分析的理論和方法研究,包括大數(shù)據(jù)計算、存儲系統(tǒng)與分布式處理等方面。研究得到包括國家杰出青年科學(xué)基金、國家重點研發(fā)計劃、973計劃和863計劃等多項國家科研項目的支持。發(fā)表學(xué)術(shù)論文40余篇,近5年以第一發(fā)明人獲得美國發(fā)明專利授權(quán)1項、中國發(fā)明專利授權(quán)7項。
第 1章 緒論 001
1.1 大數(shù)據(jù)存儲系統(tǒng)簡介 002
1.2 大數(shù)據(jù)存儲的基本形式 003
1.3 大數(shù)據(jù)存儲的關(guān)鍵技術(shù) 006
1.4 本書的組織 008
第 2章 分布式文件系統(tǒng) 011
2.1 文件系統(tǒng)的結(jié)構(gòu)與擴展 012
2.1.1 文件系統(tǒng)的名字空間與數(shù)據(jù)讀寫 012
2.1.2 文件系統(tǒng)的擴展方式 016
2.2 分布式文件系統(tǒng)的結(jié)構(gòu) 021
2.2.1 分布式文件系統(tǒng)的運行環(huán)境與特性保證 021
2.2.2 典型的單一名字空間的分布式文件系統(tǒng) 027
2.3 分布式文件系統(tǒng)的關(guān)鍵技術(shù)討論 030
2.3.1 關(guān)于性能的討論 030
2.3.2 關(guān)于可靠性方面的討論 033
2.3.3 關(guān)于一致性方面的討論 038
2.3.4 其他特性討論 042
2.4 本章小結(jié) 046
參考文獻 047
第3章 分布式鍵值對存儲 049
3.1 鍵值對存儲概述 050
3.2 分布式鍵值對存儲的實現(xiàn) 055
3.3 通過查找表存儲有序的鍵值對 061
3.4 本章小結(jié) 067
參考文獻 067
第4章 面向社區(qū)共享的網(wǎng)絡(luò)文件共享系統(tǒng) 069
4.1 面向社區(qū)共享的用戶管理模型 071
4.2 社區(qū)共享對多根多版本文件系統(tǒng)的需求 079
4.3 多根多版本文件系統(tǒng)的元數(shù)據(jù)管理 081
4.4 多根多版本文件系統(tǒng)的優(yōu)化方法 086
4.5 MeePo的設(shè)計與實現(xiàn) 091
4.6 實驗與評價 099
4.7 本章小結(jié) 103
參考文獻 104
第5章 存儲容災(zāi)系統(tǒng) 105
5.1 容災(zāi)系統(tǒng)簡介 106
5.2 存儲容災(zāi)系統(tǒng)的技術(shù)體系與現(xiàn)狀 107
5.3 容災(zāi)系統(tǒng)的標準建設(shè) 113
5.4 國內(nèi)的存儲容災(zāi)系統(tǒng)建設(shè) 114
5.5 并行化高效容災(zāi)備份與恢復(fù)系統(tǒng) 121
5.5.1 系統(tǒng)結(jié)構(gòu)與設(shè)計 121
5.5.2 基于系統(tǒng)虛擬化的一致檢查點技術(shù) 123
5.5.3 基于IPG的一致檢查點 129
5.5.4 基于即插即用設(shè)備的OS透明轉(zhuǎn)換機制 132
5.5.5 并行恢復(fù)中競爭的處理機制 132
5.5.6 并行恢復(fù)中的頁緩沖管理方法 133
5.5.7 系統(tǒng)實現(xiàn) 134
5.5.8 實際系統(tǒng)的恢復(fù)測試實驗結(jié)果 135
5.6 異地應(yīng)用層容災(zāi)系統(tǒng) 139
5.6.1 異地應(yīng)用層容災(zāi)的運行環(huán)境 139
5.6.2 應(yīng)用層虛擬化 141
5.6.3 應(yīng)用層容災(zāi)的系統(tǒng)總體結(jié)構(gòu) 143
5.6.4 應(yīng)用層容災(zāi)虛擬化容器的系統(tǒng)實現(xiàn) 147
5.6.5 應(yīng)用層容災(zāi)中數(shù)據(jù)同步與恢復(fù)的實現(xiàn) 160
5.6.6 應(yīng)用層容災(zāi)系統(tǒng)的實際效果評測 166
5.7 本章小結(jié) 171
參考文獻 171
第6章 大數(shù)據(jù)存儲系統(tǒng)的刪冗 175
6.1 大數(shù)據(jù)存儲刪冗技術(shù)簡介 176
6.1.1 刪冗的一般流程 177
6.1.2 二級存儲刪冗挑戰(zhàn) 179
6.1.3 刪冗系統(tǒng)的分類和現(xiàn)狀 180
6.1.4 現(xiàn)有的相關(guān)存儲數(shù)據(jù)刪冗系統(tǒng)與技術(shù) 184
6.2 重復(fù)數(shù)據(jù)刪除技術(shù)在云存儲系統(tǒng)中的應(yīng)用與優(yōu)化 192
6.2.1 AegeanStore的設(shè)計與實現(xiàn) 192
6.2.2 文件系統(tǒng)服務(wù)的設(shè)計與實現(xiàn) 201
6.2.3 AegeanStore中重復(fù)數(shù)據(jù)刪除技術(shù)的優(yōu)化 206
6.2.4 AegeanStore的效果測試與評價 215
6.3 高效主存儲內(nèi)嵌刪冗系統(tǒng)的設(shè)計與實現(xiàn) 218
6.3.1 主存儲刪冗存在的挑戰(zhàn) 219
6.3.2 現(xiàn)有的主內(nèi)存刪冗方案 221
6.3.3 主存儲內(nèi)嵌刪冗系統(tǒng)PDFS的技術(shù)選擇分析 224
6.3.4 主存儲內(nèi)嵌刪冗系統(tǒng)PDFS的設(shè)計與實現(xiàn) 235
6.3.5 實驗與評價 244
6.4 本章小結(jié) 255
參考文獻 256
第7章 大數(shù)據(jù)存儲糾刪碼技術(shù)與優(yōu)化 259
7.1 大數(shù)據(jù)存儲的糾刪碼技術(shù) 260
7.2 糾刪碼相關(guān)技術(shù)與工作 261
7.2.1 糾刪碼技術(shù)簡介 261
7.2.2 RS編碼相關(guān)工作 263
7.2.3 HDFS 268
7.3 高效糾刪碼編碼方法CaCo 272
7.3.1 準備柯西矩陣 273
7.3.2 求調(diào)度 275
7.3.3 選擇優(yōu)化調(diào)度方案 276
7.4 高效糾刪碼編碼方法的應(yīng)用 277
7.4.1 原型實現(xiàn) 277
7.4.2 本地編碼中的應(yīng)用 279
7.4.3 云存儲系統(tǒng)中的應(yīng)用 280
7.5 高效糾刪碼編碼方法的性能評價 282
7.5.1 選擇框架實驗測試 282
7.5.2 數(shù)據(jù)編碼性能測試 286
7.6 本章小結(jié) 290
參考文獻 290