關于我們
書單推薦
新書推薦
|
大數(shù)據(jù)概論 讀者對象:學習大數(shù)據(jù)的科學技術人員及相關師生
《大數(shù)據(jù)概論》主要介紹大數(shù)據(jù)概論,內(nèi)容包括大數(shù)據(jù)概述、科學研究第四范式、
分布系統(tǒng)設計的CAP 理論、NoSQL 數(shù)據(jù)庫、復雜網(wǎng)絡、MapReduce 分布編 程模型、大數(shù)據(jù)存儲、大數(shù)據(jù)分析、大數(shù)據(jù)挖掘、大數(shù)據(jù)可視化、大數(shù)據(jù)安 全、大數(shù)據(jù)機器學習、大數(shù)據(jù)推薦技術,以及數(shù)據(jù)科學與數(shù)據(jù)思維。《大數(shù)據(jù)概論》對 上述內(nèi)容概念性地介紹,語言精練、內(nèi)容全面。 更多科學出版社服務,請掃碼獲取。
目錄
前言 第1章 大數(shù)據(jù)概述 1 1.1 問題的提出 2 1.1.1 電子數(shù)據(jù)迅速增加 2 1.1.2 數(shù)據(jù)孕育巨大的經(jīng)濟價值 3 1.1.3 數(shù)據(jù)是國家的核心資產(chǎn) 4 1.2 大數(shù)據(jù)的產(chǎn)生源泉 4 1.2.1 互聯(lián)網(wǎng)世界 5 1.2.2 物理世界 6 1.3 大數(shù)據(jù)的概念 7 1.3.1 數(shù)據(jù)容量 7 1.3.2 數(shù)據(jù)類型 8 1.3.3 價值密度 8 1.3.4 數(shù)據(jù)傳播速度 9 1.3.5 真實性 9 1.4 大數(shù)據(jù)的特性 9 1.4.1 價值 9 1.4.2 非結構性 9 1.4.3 不完備性 10 1.4.4 時效性 10 1.4.5 安全性 10 1.4.6 可靠性 10 1.5 大數(shù)據(jù)技術概述 10 1.5.1 大數(shù)據(jù)技術的主要內(nèi)容 11 1.5.2 大數(shù)據(jù)的處理過程 12 1.5.3 大數(shù)據(jù)技術的特征 13 1.5.4 大數(shù)據(jù)的關鍵問題與關鍵技術 14 1.6 大數(shù)據(jù)應用趨勢 16 1.6.1 大數(shù)據(jù)細分市場 17 1.6.2 大數(shù)據(jù)推動企業(yè)發(fā)展 17 1.6.3 大數(shù)據(jù)分析的新方法出現(xiàn) 17 1.6.4 大數(shù)據(jù)與云計算高度融合 17 1.6.5 大數(shù)據(jù)一體設備陸續(xù)出現(xiàn) 17 1.6.6 大數(shù)據(jù)安全日益重視 18 1.7 大數(shù)據(jù)應用 18 1.7.1 判斷大數(shù)據(jù)應用成功的指標 18 1.7.2 大數(shù)據(jù)技術的應用 19 1.8 大數(shù)據(jù)的展望 22 1.8.1 資源與投入 23 1.8.2 工程技術 23 1.8.3 復雜網(wǎng)絡分析 23 1.8.4 涉及眾多領域 23 1.8.5 構建大數(shù)據(jù)生態(tài)環(huán)境 23 本章小結 23 第2章 科學研究四種范式 24 2.1 科學研究第一范式 25 2.1.1 科學實驗特點 25 2.1.2 科學實驗步驟 26 2.1.3 科學實驗分類 26 2.1.4 科學實驗構成 27 2.1.5 科學實驗程序 28 2.1.6 科學研究第一范式使用原則 29 2.2 科學研究第二范式 30 2.2.1 科學理論的特征 30 2.2.2 科學理論的結構 31 2.2.3 科學理論的價值 31 2.2.4 建立科學理論體系的一般方法 32 2.3 科學研究第三范式 33 2.3.1 概述 33 2.3.2 離散模型的模擬 34 2.3.3 連續(xù)系統(tǒng)的模擬 35 2.3.4 模擬語言 35 2.4 科學研究第四范式 36 2.4.1 數(shù)據(jù)密集型計算 36 2.4.2 格雷法則 38 2.4.3 第四范式的核心內(nèi)容 40 本章小結 41 第3章 分布系統(tǒng)設計的CAP 理論 42 3.1 分布式系統(tǒng)的伸縮性 42 3.1.1 可伸縮性的概念 43 3.1.2 影響橫向擴展的主要因素 44 3.2 橫向擴展方案 47 3.2.1 可伸縮共享數(shù)據(jù)庫 47 3.2.2 對等復制的橫向擴展方案 48 3.2.3 鏈接服務器和分布式查詢 49 3.2.4 分布式分區(qū)視圖 50 3.2.5 數(shù)據(jù)依賴型路由的橫向擴展 50 3.3 CAP 理論 51 3.3.1 分布系統(tǒng)設計的核心系統(tǒng)需求 51 3.3.2 CAP 定理 53 3.4 BASE 模型 56 3.4.1 三個核心需求分析 56 3.4.2 ACID、BASE 與CAP 的關系 57 3.4.3 CAP 與延遲 58 3.4.4 CAP 理論的進一步研究 58 3.5 Web 分布式系統(tǒng)設計 60 3.5.1 系統(tǒng)核心需求 60 3.5.2 系統(tǒng)服務 61 3.5.3 冗余 62 3.5.4 分區(qū) 62 本章小結 64 第4章 NoSQL 數(shù)據(jù)庫 65 4.1 NoSQL 概述 65 4.1.1 非結構化問題 65 4.1.2 NoSQL 的產(chǎn)生 66 4.2 NoSQL 的特點與問題 67 4.2.1 NoSQL 的特點 67 4.2.2 NoSQL 問題 68 4.3 NoSQL 的主要存儲方式 69 4.3.1 鍵值存儲方式 69 4.3.2 文檔存儲方式 72 4.3.3 列存儲方式 73 4.3.4 圖形存儲方式 76 4.3.5 各種典型的存儲方式所對應的NoSQL 數(shù)據(jù)庫 77 4.4 常用的NoSQL 數(shù)據(jù)庫 78 4.4.1 Cassandra 78 4.4.2 Lucene/Solr 78 4.4.3 Riak 79 4.4.4 CouchDB 79 4.4.5 Neo4J 79 4.4.6 Oracle 的NoSQL 79 4.4.7 Hadoop 的HBase 79 4.4.8 Bigtable/ Accumulo/ Hypertable 80 4.4.9 DynamoDB 80 4.4.10 MongoDB 80 本章小結 82 第5章 復雜網(wǎng)絡 83 5.1 概述 83 5.1.1 復雜網(wǎng)絡概念 84 5.1.2 社會網(wǎng)絡概述 84 5.1.3 社會計算 86 5.2 社會網(wǎng)絡應用 87 5.2.1 知識獲取分析 87 5.2.2 知識類型與傳遞 88 5.2.3 知識創(chuàng)新 89 5.3 社會網(wǎng)絡分析 89 5.3.1 社會網(wǎng)絡分析概述 89 5.3.2 社會網(wǎng)絡分析的原理 90 5.3.3 社會網(wǎng)絡分析的特征 90 5.3.4 社會網(wǎng)絡分析的常用方法 90 5.4 社會網(wǎng)絡中的隱私保護 91 5.4.1 用戶隱私面臨的威脅 92 5.4.2 身份隱私攻擊與保護 93 5.4.3 面向用戶關系的攻擊及保護 93 5.4.4 萬維網(wǎng)用戶隱私保護規(guī)范 93 5.5 社會感知計算 94 5.5.1 社會感知計算概念 94 5.5.2 社會感知計算的主要內(nèi)容 94 5.6 人類通信方式 95 5.6.1 通信方式的演化 95 5.6.2 六度分隔理論 96 5.6.3 150 法則 98 5.6.4 唯象理論與唯象方法 98 5.7 社交網(wǎng)站 99 5.7.1 社交網(wǎng)站概述 99 5.7.2 社交網(wǎng)站的作用 99 5.7.3 移動社交網(wǎng)絡 100 5.7.4 Web 2.0 網(wǎng)站 101 5.7.5 Web 2.0 開發(fā)平臺與必備要素 104 5.7.6 Web 3.0 網(wǎng)站 105 本章小結 105 第6章 MapReduce 分布編程模型 106 6.1 函數(shù)式編程范式 106 6.1.1 函數(shù)型語言 106 6.1.2 函數(shù)式編程 107 6.2 映射函數(shù)與化簡函數(shù) 108 6.2.1 映射與映射函數(shù) 108 6.2.2 化簡與化簡函數(shù) 109 6.3 MapReduce 計算 110 6.4 基于Hadoop 平臺的分布式計算 111 6.4.1 Hadoop 概述 111 6.4.2 分布式系統(tǒng)與Hadoop 112 6.4.3 SQL 數(shù)據(jù)庫和Hadoop 113 6.4.4 基于Hadoop 的分布式計算 114 本章小結 119 第7章 大數(shù)據(jù)存儲 120 7.1 大數(shù)據(jù)存儲概述 120 7.1.1 大數(shù)據(jù)存儲模型 121 7.1.2 大數(shù)據(jù)存儲問題 121 7.2 存儲方式 122 7.2.1 存儲介質(zhì) 122 7.2.2 直接連接存儲 122 7.2.3 網(wǎng)絡連接存儲 124 7.2.4 存儲域網(wǎng)絡存儲 125 7.2.5 IP-SAN 126 7.2.6 三種存儲方式的比較 126 7.3 大數(shù)據(jù)的存儲 127 7.3.1 數(shù)據(jù)容量問題 127 7.3.2 大圖數(shù)據(jù) 127 7.3.3 分布式存儲的架構 129 7.3.4 數(shù)據(jù)存儲管理 130 7.4 數(shù)據(jù)云存儲 132 7.4.1 云存儲的意義與問題 133 7.4.2 技術措施 133 7.5 數(shù)據(jù)存儲的可靠性 135 7.5.1 磁盤與磁盤陣列的可靠性 136 7.5.2 文件系統(tǒng)的可靠性 138 本章小結 138 第8章 大數(shù)據(jù)分析 139 8.1 數(shù)據(jù)分析概述 140 8.1.1 數(shù)據(jù)分析的概念 140 8.1.2 數(shù)據(jù)分析的目的與意義 140 8.1.3 數(shù)據(jù)分析的基本方法 141 8.1.4 數(shù)據(jù)分析的類型 146 8.1.5 數(shù)據(jù)分析的步驟 147 8.2 大數(shù)據(jù)分析基礎 147 8.2.1 可視化分析 148 8.2.2 數(shù)據(jù)挖掘 148 8.2.3 大數(shù)據(jù)預測分析 148 8.2.4 語義引擎 148 8.2.5 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理 148 8.2.6 大數(shù)據(jù)的離線與在線分析 148 8.3 大數(shù)據(jù)預測分析 149 8.3.1 大數(shù)據(jù)預測分析關鍵因素 150 8.3.2 大數(shù)據(jù)預測分析演進方向 150 8.3.3 大數(shù)據(jù)預測分析相關問題 151 8.3.4 輿情監(jiān)測與分析 152 8.3.5 輿情報告圖表制作 153 8.4 大數(shù)據(jù)分析應用 154 8.4.1 為客戶提供服務 154 8.4.2 優(yōu)化業(yè)務流程 154 8.4.3 改善生活 155 8.4.4 提高醫(yī)療條件 155 8.4.5 提高體育成績 155 8.4.6 優(yōu)化機器和設備性能 155 8.4.7 改善安全和執(zhí)法 155 8.4.8 改進和優(yōu)化城市 155 8.4.9 金融交易 156 8.4.10 電信業(yè)務 156 8.4.11 銷售 156 8.5 大數(shù)據(jù)分析平臺與工具 156 8.5.1 大數(shù)據(jù)分析基礎平臺 156 8.5.2 大數(shù)據(jù)分析的工具 158 本章小結 160 第9章 大數(shù)據(jù)挖掘 161 9.1 數(shù)據(jù)挖掘概述 162 9.1.1 數(shù)據(jù)挖掘的定義 162 9.1.2 數(shù)據(jù)挖掘的分類 163 9.1.3 數(shù)據(jù)挖掘的技術 163 9.2 數(shù)據(jù)挖掘對象與過程 164 9.2.1 數(shù)據(jù)挖掘對象 164 9.2.2 數(shù)據(jù)挖掘過程 164 9.2.3 數(shù)據(jù)挖掘過程工作量 165 9.3 數(shù)據(jù)挖掘的常用方法 166 9.3.1 神經(jīng)網(wǎng)絡方法 166 9.3.2 遺傳算法 166 9.3.3 決策樹方法 166 9.3.4 粗集方法 166 9.3.5 覆蓋正例排斥反例方法 167 9.3.6 統(tǒng)計分析方法 167 9.3.7 模糊集方法 167 9.4 數(shù)據(jù)挖掘的幾個問題 167 9.4.1 數(shù)據(jù)挖掘與數(shù)據(jù)分析的區(qū)別 167 9.4.2 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫 167 9.4.3 數(shù)據(jù)挖掘和OLAP 的比較 168 9.4.4 數(shù)據(jù)挖掘與人工智能 169 9.4.5 軟硬件發(fā)展對數(shù)據(jù)挖掘的影響 169 9.4.6 數(shù)據(jù)挖掘和統(tǒng)計分析的區(qū)別 169 9.4.7 Web 挖掘和數(shù)據(jù)挖掘的區(qū)別 170 9.5 關聯(lián)規(guī)則 170 9.5.1 關聯(lián)規(guī)則定義 170 9.5.2 關聯(lián)規(guī)則分類 171 9.5.3 關聯(lián)規(guī)則的挖掘過程 171 9.5.4 關聯(lián)規(guī)則應用 172 9.6 數(shù)據(jù)挖掘的經(jīng)典算法 172 9.6.1 Apriori 算法集 173 9.6.2 劃分算法 173 9.6.3 FP-樹頻集算法 173 9.7 大數(shù)據(jù)挖掘技術 173 9.7.1 大數(shù)據(jù)挖掘關鍵技術 174 9.7.2 大數(shù)據(jù)挖掘策略 176 9.8 大數(shù)據(jù)挖掘應用 176 9.8.1 市場營銷 177 9.8.2 銷售礦泉水 178 9.8.3 物流 178 9.8.4 CRM 179 本章小結 181 第10章 大數(shù)據(jù)可視化 182 10.1 數(shù)據(jù)可視化技術概述 182 10.1.1 數(shù)據(jù)可視化技術的產(chǎn)生史 183 10.1.2 數(shù)據(jù)可視化技術適用范圍 183 10.1.3 信息展現(xiàn)方式 183 10.1.4 數(shù)據(jù)、信息及知識 185 10.1.5 交互式處理 185 10.2 科學可視化 185 10.2.1 科學可視化的概念與過程 186 10.2.2 大數(shù)據(jù)科學可視化的技術 186 10.3 信息可視化 189 10.3.1 信息可視化概念 189 10.3.2 知識發(fā)現(xiàn) 190 10.3.3 知識發(fā)現(xiàn)工具 191 10.3.4 信息可視化技術的應用 191 10.4 數(shù)據(jù)可視化應用 192 10.4.1 數(shù)據(jù)可視化的概念 192 10.4.2 數(shù)據(jù)可視化技術的特點 192 10.4.3 數(shù)據(jù)可視化技術的相關概念 193 10.4.4 數(shù)據(jù)可視化技術的應用 193 10.5 大數(shù)據(jù)可視分析 194 10.5.1 大數(shù)據(jù)可視分析的概念 195 10.5.2 大數(shù)據(jù)可視分析的方法 195 本章小結 198 第11章 大數(shù)據(jù)安全 199 11.1 數(shù)據(jù)安全概述 199 11.1.1 數(shù)據(jù)安全的定義 200 11.1.2 數(shù)據(jù)處理與存儲的安全 200 11.1.3 數(shù)據(jù)安全的基本特點 200 11.1.4 威脅數(shù)據(jù)安全的主要因素 201 11.1.5 安全制度與防護技術 202 11.1.6 典型應用 203 11.2 安全措施實現(xiàn) 208 11.2.1 網(wǎng)絡分段 208 11.2.2 數(shù)據(jù)鏈路層的物理分段 208 11.2.3 VLAN 的劃分 208 11.3 電子商務安全 209 11.3.1 計算機網(wǎng)絡安全的內(nèi)容 209 11.3.2 計算機商務交易安全的內(nèi)容 210 11.4 大數(shù)據(jù)安全 211 11.4.1 大數(shù)據(jù)的不安全因素 211 11.4.2 大數(shù)據(jù)安全的關鍵問題 212 11.4.3 大數(shù)據(jù)安全措施 213 11.5 云安全 214 11.5.1 云計算中用戶的安全需求 214 11.5.2 威脅模型 215 11.5.3 云安全的支撐技術問題 215 11.5.4 用戶數(shù)據(jù)隱私保護 216 11.5.5 云計算執(zhí)行環(huán)境的可信性 216 11.5.6 資源共享問題 217 本章小結 217 第12章 大數(shù)據(jù)機器學習 218 12.1 機器學習概述 219 12.1.1 機器學習的產(chǎn)生與發(fā)展 219 12.1.2 機器學習的概念 219 12.1.3 機器學習理論及研究 220 12.1.4 機器學習系統(tǒng)的結構 221 12.2 機器學習類型 222 12.2.1 基于學習策略的學習分類 222 12.2.2 基于應用領域的學習分類 223 12.2.3 基于綜合因素的學習分類 223 12.3 知識表示形式 224 12.4 大數(shù)據(jù)機器學習 225 12.4.1 大數(shù)據(jù)機器學習的特點 226 12.4.2 大數(shù)據(jù)機器學習的評測指標 227 12.5 大數(shù)據(jù)機器學習的應用 228 12.5.1 基于大數(shù)據(jù)的空氣質(zhì)量推斷 228 12.5.2 人與建筑的關系分析 228 12.5.3 針對全球問題的預測模型 229 12.5.4 全球地表覆蓋制圖可視化與數(shù)據(jù)分析 229 本章小結 229 第13章 大數(shù)據(jù)推薦技術 230 13.1 概述 231 13.1.1 推薦系統(tǒng)的產(chǎn)生與發(fā)展 231 13.1.2 推薦系統(tǒng)的概念 231 13.2 推薦系統(tǒng)架構 232 13.2.1 用戶特征提取模塊 232 13.2.2 相關物品檢索模塊 232 13.2.3 推薦結果排序模塊 232 13.3 推薦系統(tǒng)類型 232 13.3.1 基于用戶行為數(shù)據(jù)推薦 232 13.3.2 基于用戶標簽數(shù)據(jù)推薦 233 13.3.3 基于上下文信息推薦 233 13.3.4 基于社交網(wǎng)絡數(shù)據(jù)推薦 233 13.4 推薦系統(tǒng)的評判標準 234 13.5 推薦算法 235 13.5.1 基于人口統(tǒng)計學的推薦算法 235 13.5.2 基于內(nèi)容的推薦算法 235 13.5.3 協(xié)同過濾推薦算法 236 13.5.4 混合推薦算法 238 13.6 推薦模式與系統(tǒng) 238 13.6.1 推薦模式 238 13.6.2 下一代推薦系統(tǒng) 239 13.7 大數(shù)據(jù)推薦技術 240 13.7.1 數(shù)據(jù)稀疏性 241 13.7.2 大數(shù)據(jù)推薦系統(tǒng)冷啟動 241 13.7.3 多樣性與精確性的兩難命題 241 13.7.4 增量計算 242 13.7.5 推薦系統(tǒng)的魯棒性 242 13.7.6 推薦系統(tǒng)效果評估 242 13.7.7 用戶行為模式的挖掘和利用 242 13.7.8 用戶界面與用戶體驗 243 13.7.9 多維數(shù)據(jù)的交叉利用 243 13.7.10 社會推薦 244 13.8 大數(shù)據(jù)人才推薦系統(tǒng) 244 本章小結 245 第14章 數(shù)據(jù)科學與數(shù)據(jù)思維 246 14.1 數(shù)據(jù)科學概述 246 14.1.1 數(shù)據(jù)科學定義與信息化過程 246 14.1.2 數(shù)據(jù)科學研究內(nèi)容 247 14.1.3 數(shù)據(jù)科學的研究過程與體系框架 248 14.2 大數(shù)據(jù)研究方式 249 14.2.1 大數(shù)據(jù)分析的是全面的數(shù)據(jù) 249 14.2.2 重視數(shù)據(jù)的復雜性與弱化精確性 251 14.2.3 關注數(shù)據(jù)的相關性而非因果關系 251 14.3 數(shù)據(jù)專家 252 14.3.1 數(shù)據(jù)科學家 252 14.3.2 數(shù)據(jù)工程師 254 14.4 數(shù)據(jù)思維 254 14.4.1 思維的概念與特征 254 14.4.2 思維的形成 256 14.4.3 計算思維 258 14.4.4 網(wǎng)絡思維 260 14.4.5 系統(tǒng)思維 263 14.4.6 大數(shù)據(jù)思維 264 本章小結 264 參考文獻 265
第 1章大數(shù)據(jù)概述本章主要內(nèi)容
大數(shù)據(jù)概述問題的提出電子數(shù)據(jù)迅速增加數(shù)據(jù)孕育巨大的經(jīng)濟價值數(shù)據(jù)是國家的核心資產(chǎn) 大數(shù)據(jù)的產(chǎn)生源泉互聯(lián)網(wǎng)世界物理世界大數(shù)據(jù)的概念 數(shù)據(jù)容量巨大數(shù)據(jù)類型多價值密度低數(shù)據(jù)傳播速度 大數(shù)據(jù)的性質(zhì) 價值非結構性不完備性時效性安全性可靠性 大數(shù)據(jù)技術概述 大數(shù)據(jù)技術的主要內(nèi)容大數(shù)據(jù)的處理過程大數(shù)據(jù)技術的特征大數(shù)據(jù)關鍵問題與關鍵技術大數(shù)據(jù)應用趨勢大數(shù)據(jù)細分市場大數(shù)據(jù)推動企業(yè)發(fā)展大數(shù)據(jù)分析的新方法出現(xiàn)大數(shù)據(jù)與云計算高度融合大數(shù)據(jù)一體設備陸續(xù)出現(xiàn)大數(shù)據(jù)安全日益重視 大數(shù)據(jù)應用判斷大數(shù)據(jù)應用成功的指標大數(shù)據(jù)技術的應用 大數(shù)據(jù)的展望 資源與投入工程技術復雜網(wǎng)絡分析涉及眾多領域構建大數(shù)據(jù)生態(tài)環(huán)境 需求是科學技術發(fā)展的原動力。目前,大數(shù)據(jù)問題的出現(xiàn)與研究已經(jīng)成為了計算機科學與技術研究的新熱點,并顯示出日益強大的吸引力,科學大數(shù)據(jù)的出現(xiàn)催生了數(shù)據(jù)密集型知識發(fā)現(xiàn)的科學研究第四范式的出現(xiàn)。對于信息領域,大數(shù)據(jù)帶來的不僅是機遇,還有一系列的困難和挑戰(zhàn)。目前,大數(shù)據(jù)技術與應用展現(xiàn)出銳不可當?shù)膹姶笊,科學界與企業(yè)界寄予無比的厚望。大數(shù)據(jù)成為繼 20世紀末、21世紀初互聯(lián)網(wǎng)蓬勃發(fā)展以來的又一輪 IT工業(yè)革命。 1.1 問題的提出 在全世界范圍內(nèi),以電子方式存儲的數(shù)據(jù)(又簡稱為電子數(shù)據(jù))總量空前巨大。在 2011年電子數(shù)據(jù)總量已達到 1.8ZB(1ZB=1024PB),較 2010年同期提高超過 1ZB,統(tǒng)計結果表明,每經(jīng)過 2年就可以增加 1倍,預計到 2020年可達到 35ZB,如圖 1-1所示。面對數(shù)據(jù)增長的速度迅猛提升,數(shù)據(jù)量的飛速增加,對大量電子數(shù)據(jù)的高效存儲、高效傳輸與快速的處理是必須面對的研究問題。 圖 1-1 全球數(shù)據(jù)創(chuàng)建及復制的數(shù)據(jù)總量預測 1.1.1 電子數(shù)據(jù)迅速增加 物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、個人計算機( PC)、氣候信息、公開的信息,如雜志、報紙和文章、交易記錄、網(wǎng)絡日志、病歷、軍事監(jiān)控、視頻和圖像、檔案及大型電子商務,以及遍布地球各個角落的各種各樣的傳感器是數(shù)據(jù)來源或者承載的方式不斷更新與發(fā)展、大型科學研究設備產(chǎn)生的數(shù)據(jù),以及社交媒體的快速發(fā)展,構成了大數(shù)據(jù)持續(xù)產(chǎn)生的生態(tài)環(huán)境。尤其是近年來,隨著互聯(lián)網(wǎng)技術的發(fā)展,來自人們的日常生活,特別是來自互聯(lián)網(wǎng)服務而產(chǎn)生的大量數(shù)據(jù)迅猛增加。據(jù)不完全統(tǒng)計,互聯(lián)網(wǎng)當前包含 93億多個頁面,80%~85%的數(shù)據(jù)是存儲在數(shù)據(jù)庫的文本中;ヂ(lián)網(wǎng)一天產(chǎn)生的全部內(nèi)容可以刻滿 1.68億張 DVD,發(fā)出的郵件有 2940億封之多,發(fā)出的社區(qū)帖子達 200萬個(相當于《時代》雜志 770年的文字量),賣出的手機為 37.8萬臺,高于全球每天出生的嬰兒數(shù)量 37.1萬……從數(shù)據(jù)統(tǒng)計角度來看,電子數(shù)據(jù)量迅速增加。預計中國數(shù)據(jù)技術和服務市場未來 5年的復合增長率將達 51.4%,其中增長率最高的是存儲市場,將達 60.8%,服務器市場的增長率則是 38.3%,遠遠高于其他產(chǎn)品相關的市場。 1.1.2 數(shù)據(jù)孕育巨大的經(jīng)濟價值 數(shù)據(jù)本身是無意義的,而通過統(tǒng)計、分類、萃取、特征抽取等一系列技術手段,可以從數(shù)據(jù)中產(chǎn)生信息與知識。數(shù)據(jù)是重要的戰(zhàn)略資源,隱含巨大的經(jīng)濟價值,因此已經(jīng)引起科學界和企業(yè)界的高度重視。有效地組織和使用數(shù)據(jù),將對經(jīng)濟發(fā)展產(chǎn)生巨大的推動作用。大數(shù)據(jù)出現(xiàn)孕育著前所未有的機遇。對大數(shù)據(jù)的交換、整合和分析,可以發(fā)現(xiàn)新的知識,創(chuàng)造新的價值。 越來越多的企業(yè)等機構意識到數(shù)據(jù)正在成為最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為核心競爭力。經(jīng)過了由 PC成功轉向了軟件和服務,而這次將遠離服務與咨詢,更多地專注于因數(shù)據(jù)分析而帶來的全新業(yè)務增長點。數(shù)據(jù)將成為各行業(yè)中決定勝負的根本因素,最終數(shù)據(jù)將成為人類至關重要的自然資源。各著名的大型公司已經(jīng)致力于開發(fā)自己的大數(shù)據(jù)處理和存儲系統(tǒng),目前已經(jīng)到了數(shù)據(jù)化運營的黃金時期,如何整合這些數(shù)據(jù)成為未來的關鍵任務。 在互聯(lián)網(wǎng)、電信、金融等行業(yè),幾乎已經(jīng)到了數(shù)據(jù)就是業(yè)務本身的地步。物聯(lián)網(wǎng)、社交網(wǎng)絡等新的互聯(lián)網(wǎng)技術在為人們帶來便利的同時,也產(chǎn)生了大量的數(shù)據(jù)。如何有效地存儲和查詢這些數(shù)據(jù),如何通過數(shù)據(jù)挖掘,從數(shù)據(jù)中獲得有用的信息,為用戶提供好的用戶體驗,增強企業(yè)的競爭力,是一個挑戰(zhàn)。研究表明,數(shù)字領域存在著 1.8萬億 GB的數(shù)據(jù),企業(yè)數(shù)據(jù)正在以 55%的速度逐年增長。目前,兩天就能創(chuàng)造出自人類文明誕生以來到 2003年所產(chǎn)生的數(shù)據(jù)總量。大數(shù)據(jù)已經(jīng)成為重要的時代特征,充分利用大數(shù)據(jù)可幫助全球個人定位服務提供商增加 1000億美元的收入,幫助歐洲公共部門的管理每年提升 2500億美元產(chǎn)值,幫助美國醫(yī)療保健行業(yè)每年提升 3000億美元產(chǎn)值,并可幫助美國零售業(yè)獲得 60%以上的凈利潤增長率。由此可見,充分使用大數(shù)據(jù)和挖掘大數(shù)據(jù)商業(yè)價值將為行業(yè)企業(yè)帶來強大經(jīng)濟效益與競爭力。 大數(shù)據(jù)既是對信息技術發(fā)展的高度抽象和概括,同時也體現(xiàn)了信息技術服務于數(shù)據(jù)蘊藏的巨大價值。大數(shù)據(jù)給數(shù)據(jù)的采集、存儲、維護、共享帶來了具有研究意義的現(xiàn)象和挑戰(zhàn),但更多的意義是可以處理、分析并使用大量數(shù)據(jù),通過這些數(shù)據(jù)的處理、整合和分析,可以發(fā)現(xiàn)新知識、創(chuàng)造新價值,帶來大知識、大科學和大發(fā)展,逐漸走向創(chuàng)新社會化的新信息時代。 大數(shù)據(jù)全生命周期可以劃分為“數(shù)據(jù)產(chǎn)生—數(shù)據(jù)采集—數(shù)據(jù)傳輸—數(shù)據(jù)存儲—數(shù)據(jù)處理—數(shù)據(jù)分析—數(shù)據(jù)發(fā)布、展示和應用—產(chǎn)生新數(shù)據(jù)”等階段。已經(jīng)形成了大數(shù)據(jù)的“生產(chǎn)與集聚層—組織與管理層—分析與發(fā)現(xiàn)層—應用與服務層”的產(chǎn)業(yè)鏈,而 IT基礎設施為這各環(huán)節(jié)提供基礎支撐。 據(jù)統(tǒng)計, 2012年市場規(guī)模達到 4.5億元, 2016年估計可達到百億規(guī)模,如圖 1-2所示。 圖 1-2 中國大數(shù)據(jù)應用市場規(guī)模與增長 1.1.3 數(shù)據(jù)是國家的核心資產(chǎn) 一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制,甚至將成為陸權、海權、空權之外的另一種國家核心資產(chǎn)。聯(lián)合國也在 2012年發(fā)布了大數(shù)據(jù)政務白皮書,指出大數(shù)據(jù)對于聯(lián)合國和各國政府是一個歷史性的機遇,通過使用極為豐富的數(shù)據(jù)資源,對社會經(jīng)濟進行前所未有的實時分析,幫助政府更好地響應社會和經(jīng)濟運行。 數(shù)據(jù)為王的大數(shù)據(jù)時代已經(jīng)到來,對數(shù)據(jù)的占有和控制也將成為國家間和企業(yè)間新的爭奪點。大數(shù)據(jù)技術的專業(yè)人才,特別是數(shù)據(jù)分析復合型人才的稀缺將會影響該市場的發(fā)展。 在技術層面上,大數(shù)據(jù)、海量數(shù)據(jù)與超大規(guī)模數(shù)據(jù)并無本質(zhì)的區(qū)別,它們都是指用傳統(tǒng)處理方法無法處理的大量數(shù)據(jù)。通過對大數(shù)據(jù)的高速有效處理,可以發(fā)現(xiàn)數(shù)據(jù)中蘊藏的規(guī)律與規(guī)則,進而為各種關鍵決策提供依據(jù)與指導,正確的預測與決策將導致巨大財富的產(chǎn)生。技術與工具密不可分,目前常用的數(shù)據(jù)處理技術與工具是小數(shù)據(jù)處理技術與工具,一些海量數(shù)據(jù)處理方法與工具是一種過度性的方法與工具,大數(shù)據(jù)處理技術與工具的研究是一項有理論意義和實際價值的工作。簡言之,大數(shù)據(jù)技術就是從各種各樣類型的數(shù)據(jù)中,快速獲得智慧的技術。信息要能轉化成智慧,至少要滿足以下三個標準。 1.可破譯性 可破譯性是大數(shù)據(jù)時代特有的問題,但非結構化的數(shù)據(jù)不是一定都可破譯。例如,記錄了某客戶在網(wǎng)站上三次翻頁的時間間隔分別是 5s、4s、15s,卻忘記標注這三個時間代表什么,也就是說,知道這些數(shù)據(jù)是信息,卻不可破譯,所以不可能成為知識。 2.關聯(lián)性 關聯(lián)性即是相關性。無關的信息可以被看成噪聲。 3.新穎性 新穎性是指無法僅僅根據(jù)擁有的數(shù)據(jù)和信息進行判斷。例如,某電子商務公司通過一組數(shù)據(jù)/信息,分析出了客戶愿意為當天送貨的產(chǎn)品多支付 10元錢,然后又通過另一組完全獨立的數(shù)據(jù)/信息得到了同樣的內(nèi)容,這樣的情況下,后者就不具備新穎性。但是,很多時候,只有在處理了大量的數(shù)據(jù)和信息以后,才能判斷它們是否具有新穎性。 1.2 大數(shù)據(jù)的產(chǎn)生源泉 大數(shù)據(jù)是人類活動的產(chǎn)物,來自人們改造客觀世界的過程中,是生產(chǎn)與生活在網(wǎng)絡空間的投影。信息爆炸是對信息快速發(fā)展的一種逼真的描述,形容信息發(fā)展的速度如同爆炸一般席卷整個地球。在 20世紀 40~50年代,信息爆炸主要指的是科學文獻的快速增長;而經(jīng)過 50年的發(fā)展,到 20世紀 90年代,由于計算機和通信技術廣泛應用,信息爆炸主要指的是所有社會信息快速增長,包括正式交流過程和非正式交流過程所產(chǎn)生的電子式的和非電子式的信息,而到 21世紀的今天,信息爆炸是由于數(shù)據(jù)洪流的產(chǎn)生和發(fā)展所造成的。在技術方面,新型的硬件與數(shù)據(jù)中心、分布式計算、云計算、大容量數(shù)據(jù)存儲與處理技術、社會化網(wǎng)絡、移動終端設備、多樣化的數(shù)據(jù)采集方式使大數(shù)據(jù)的產(chǎn)生和記錄成為可能。在用戶方面,日益人性化的用戶界面、信息行為模式都容易作為數(shù)據(jù)而記錄,用戶既可成為數(shù)據(jù)的制造者,也可以成為數(shù)據(jù)的使用者?梢钥闯,隨著云計算、物聯(lián)網(wǎng)計算和移動計算的發(fā)展,世界上所產(chǎn)生的新數(shù)據(jù),包括位置、狀態(tài)、思考、過程和行動等產(chǎn)生的數(shù)據(jù)都能夠匯入數(shù)據(jù)洪流,導致數(shù)據(jù)洪流席卷互聯(lián)網(wǎng)。 歸納起來,大數(shù)據(jù)主要來自物理世界與互聯(lián)網(wǎng)世界。 1.2.1 互聯(lián)網(wǎng)世界 大數(shù)據(jù)時代,需要更加全面的數(shù)據(jù)來提高預測的準確度,因此需要更多廉價、便捷、自動的數(shù)據(jù)生產(chǎn)工具。 大數(shù)據(jù)是計算機和互聯(lián)網(wǎng)結合的產(chǎn)物,計算機實現(xiàn)了數(shù)據(jù)的數(shù)字化,互聯(lián)網(wǎng)實現(xiàn)了數(shù)據(jù)的網(wǎng)絡化;兩者結合才賦予了大數(shù)據(jù)生命力。隨著互聯(lián)網(wǎng)如同空氣、水、電一樣無處不在地滲透到我們的工作和生活,加上移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、可穿戴聯(lián)網(wǎng)設備的普及,新的數(shù)據(jù)正在以指數(shù)級別的速度產(chǎn)生,目前世界上 90%的數(shù)據(jù)是在互聯(lián)網(wǎng)出現(xiàn)以后迅速產(chǎn)生的。 大數(shù)據(jù)來自人類社會,尤其互聯(lián)網(wǎng)的發(fā)展為數(shù)據(jù)的存儲、傳輸與應用創(chuàng)造了基礎與環(huán)境。依據(jù)基于唯象假設的六度分割理論而建立的社交網(wǎng)絡服務( Social Network Service,SNS),以認識朋友的朋友為基礎,擴展自己的人脈; Web 2.0網(wǎng)站建立的社交網(wǎng)絡,用戶既是網(wǎng)站信息的使用者,也是網(wǎng)站信息的制作者。社交網(wǎng)站記錄人們之間的交互,搜索引擎記錄人們的搜索行為和搜索結果,電子商務網(wǎng)站記錄了人們購買商品的喜好,微博網(wǎng)站記錄了人們所產(chǎn)生的即時想法和意見,圖片視頻分享網(wǎng)站記錄了人們的視覺觀察,百科全書網(wǎng)站記錄了人們對抽象概念的認識,幻燈片分享網(wǎng)站記錄了人們的各種正式和非正式的演講發(fā)言,機構知識庫和開放獲取期刊記錄了學術研究成果等。歸納起來,來自互聯(lián)網(wǎng)的數(shù)據(jù)可以劃分為下述六種類型。 1.視頻 視頻圖像是大數(shù)據(jù)的主要來源之一,電影、電視節(jié)目可以產(chǎn)生大量的視頻圖像,各種室內(nèi)外的視頻攝像頭晝夜不停地產(chǎn)生巨量的視頻圖像。視頻圖像以每秒幾十幀的速度連續(xù)記錄運動著的物體,一個小時的標準清晰視頻經(jīng)過壓縮后,所需的存儲空間為 GB數(shù)量級,對于高清晰度視頻所需的存儲空間就更大了。 2.圖片與照片 圖片與照片也是大數(shù)據(jù)的主要來源之一,截至 2011年 9月,用戶向臉譜( Facebook)上傳了 1400億張以上的照片,臉譜是美國最大的一個社交網(wǎng)站,類似于中國的新浪微博。如果拍攝者為了保存拍攝時的原始文件,平均每張照片大小為 1MB,則這些照片的總數(shù)據(jù)量就是 140G×1MB=140PB,如果單臺服務器磁盤容量為 10TB,則存儲這些照片需要 14000臺服務器,而且這些上傳的照片僅僅是人們拍攝到的照片的很少一部分。此外,許多遙感系統(tǒng)一天 24小時不停地拍攝并產(chǎn)生大量照片。 3.音頻 DVD光盤采用了雙聲道 16位采樣,采樣頻率為 44.1kHz,可達到多媒體欣賞水平。如果某音樂劇的長度為 5.5min,計算其占用的存儲容量為 存儲容量 =(采樣頻率 ×采樣位數(shù) ×聲道數(shù) ×時間) / 8 = (44.1×1000×16×2×5.5×60)/8 = 12.6MB 4.日志 網(wǎng)絡設備、系統(tǒng)及服務程序等,在運行時都會產(chǎn)生 log的事件記錄,每一行日志都記載著日期、時間、使用者及動作等相關操作的描述。Windows網(wǎng)絡操作系統(tǒng)設有各種各樣的日志文件,如應用程序日志、安全日志、系統(tǒng)日志、 Scheduler服務日志、 FTP日志、WWW日志、DNS服務器日志等,并且根據(jù)系統(tǒng)開啟的服務的
你還可能感興趣
我要評論
|