關(guān)于我們
書單推薦
新書推薦
|
大數(shù)據(jù)技術(shù)基礎(chǔ)
本書的知識(shí)架構(gòu)是在培訓(xùn)了多屆學(xué)員的基礎(chǔ)上總結(jié)整理得來的,已經(jīng)經(jīng)過了實(shí)踐的考驗(yàn),證實(shí)了其科學(xué)性;本書當(dāng)中的案例都為企業(yè)實(shí)際開發(fā)的案例,通過學(xué)習(xí)這些大量的實(shí)際案例,幫助學(xué)生在進(jìn)入企業(yè)后可以很快融入大數(shù)據(jù)工作崗位。本書包括大數(shù)據(jù)概論、初識(shí)Hadoop、認(rèn)識(shí)HDFS、HDFS的運(yùn)行機(jī)制、訪問HDFS、HadoopI/O詳解、認(rèn)識(shí)MapReduce編程模型、MapReduce應(yīng)用編程開發(fā)、MapReduce的工作機(jī)制與YARN平臺(tái)、MapReduce高級(jí)開發(fā)、MapReduce實(shí)例共11章內(nèi)容。本書既可作為高等院校學(xué)習(xí)大數(shù)據(jù)技術(shù)的教材,亦可作為廣大大數(shù)據(jù)技術(shù)學(xué)習(xí)者的入門用書。
本書針對(duì)初學(xué)者的知識(shí)體系,適當(dāng)簡(jiǎn)化大數(shù)據(jù)學(xué)習(xí)的難度,使得學(xué)習(xí)更加容易上手;知識(shí)架構(gòu)是在培訓(xùn)了多屆學(xué)員的基礎(chǔ)上總結(jié)整理得來的,已經(jīng)經(jīng)歷了實(shí)踐的考驗(yàn),證實(shí)了其的科學(xué)性;本書凝聚了10余位技術(shù)大牛的研發(fā)和授課經(jīng)驗(yàn),教學(xué)資料完整;書中的案例都為企業(yè)實(shí)際開發(fā)的案例,通過學(xué)習(xí)這些大量的實(shí)際案例,使得學(xué)習(xí)者在進(jìn)入企業(yè)后可以快速融入大數(shù)據(jù)技術(shù)相關(guān)工作崗位。
為什么要寫這本書
近年來,大數(shù)據(jù)(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。它已經(jīng)上過《紐約時(shí)報(bào)》、《華爾街日?qǐng)?bào)》的專欄封面,進(jìn)入美國白宮官網(wǎng)的新聞,現(xiàn)身在國內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進(jìn)了投資推薦報(bào)告。最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫。麥肯錫稱: “數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。”“大數(shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通信等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來發(fā)展,雖然很多企業(yè)可能還沒有意識(shí)到數(shù)據(jù)爆炸性增長(zhǎng)帶來問題的隱患,但是隨著時(shí)間的推移,人們將越來越多地意識(shí)到數(shù)據(jù)對(duì)企業(yè)的重要性。 在如今的社會(huì),大數(shù)據(jù)的應(yīng)用越來越彰顯它的優(yōu)勢(shì),它占領(lǐng)的領(lǐng)域也越來越大,如電子商務(wù)、O2O、物流配送等,各種利用大數(shù)據(jù)進(jìn)行發(fā)展的領(lǐng)域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務(wù)和創(chuàng)新運(yùn)營模式。有了大數(shù)據(jù)這個(gè)概念,對(duì)于消費(fèi)者行為的判斷,產(chǎn)品銷售量的預(yù)測(cè),精確的營銷范圍以及存貨的補(bǔ)給已經(jīng)得到全面的改善與優(yōu)化。然而,這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來衡量。 為了解決這些數(shù)據(jù)的存儲(chǔ)和相關(guān)計(jì)算問題,就必須構(gòu)建一個(gè)強(qiáng)大且穩(wěn)定的分布式集群系統(tǒng)作為搜索引擎的基礎(chǔ)架構(gòu)支撐平臺(tái),但是對(duì)于大多數(shù)互聯(lián)網(wǎng)公司而言,研發(fā)這樣一個(gè)高效性能系統(tǒng)往往要支付高昂的費(fèi)用。經(jīng)過多年的發(fā)展,如今已形成了以Hadoop為核心的大數(shù)據(jù)生態(tài)系統(tǒng),開創(chuàng)了通用海量數(shù)據(jù)處理基礎(chǔ)架構(gòu)平臺(tái)的先河。Hadoop是一個(gè)優(yōu)秀的分布式計(jì)算系統(tǒng),利用通用的硬件就可以構(gòu)建一個(gè)強(qiáng)大、穩(wěn)定、簡(jiǎn)單并且高效的分布式集群計(jì)算系統(tǒng),完全可以滿足互聯(lián)網(wǎng)公司基礎(chǔ)架構(gòu)平臺(tái)的需求,付出相對(duì)低廉的代價(jià)就可以輕松處理超大規(guī)模的數(shù)據(jù)。因此,使用Hadoop的公司越來越多,具有豐富工作經(jīng)驗(yàn)的Hadoop人才也就越來越供不應(yīng)求,從而學(xué)習(xí)和使用Hadoop的愛好者和開發(fā)者也越來越多,編寫這本書也正是為了幫助更多的人學(xué)習(xí)并掌握Hadoop技術(shù),從而推動(dòng)Hadoop技術(shù)在中國的推廣,進(jìn)而推動(dòng)中國信息產(chǎn)業(yè)的發(fā)展。 讀者對(duì)象 本書適合以下讀者閱讀: 。1) 大數(shù)據(jù)技術(shù)的學(xué)習(xí)者和愛好者; (2) 有Java基礎(chǔ)的開發(fā)者; (3) Hadoop技術(shù)開發(fā)者;大數(shù)據(jù) 技術(shù)基礎(chǔ) 前言 。4) Hadoop集群運(yùn)維開發(fā)者; 。5) 分布式系統(tǒng)的相關(guān)研發(fā)人員。 如何閱讀本書 本書分為三個(gè)部分。 第一部分為簡(jiǎn)介。簡(jiǎn)介部分為第1章,主要介紹了大數(shù)據(jù)的時(shí)代背景,從大數(shù)據(jù)來源到大數(shù)據(jù)的價(jià)值和影響,以及對(duì)應(yīng)用場(chǎng)景和發(fā)展前景的介紹,幫助用戶明白什么是大數(shù)據(jù),大數(shù)據(jù)是用來干什么的,以及大數(shù)據(jù)的發(fā)展前景是怎樣的。大數(shù)據(jù)的基本概念,首先明白什么是大數(shù)據(jù),大數(shù)據(jù)中數(shù)據(jù)結(jié)構(gòu)的復(fù)雜度,重點(diǎn)明白大數(shù)據(jù)的四個(gè)核心特征,接著了解大數(shù)據(jù)所使用的技術(shù),最后介紹了一些大數(shù)據(jù)的應(yīng)用實(shí)例,幫助大家更好地理解大數(shù)據(jù)、大數(shù)據(jù)系統(tǒng),理解其核心設(shè)計(jì)目標(biāo),在系統(tǒng)設(shè)計(jì)目標(biāo)的實(shí)現(xiàn)過程中,系統(tǒng)還需遵循一定的設(shè)計(jì)原則。 第二部分為Hadoop技術(shù)的講解,包括第2章到第9章。從認(rèn)識(shí)Hadoop開始到正式介紹Hadoop的基本應(yīng)用,通過HDFS分布式文件系統(tǒng)和MapReduce并行計(jì)算模型從理論到實(shí)現(xiàn)機(jī)制的角度對(duì)Hadoop計(jì)算進(jìn)行講解。講述了HDFS的特性和目標(biāo)、核心設(shè)計(jì)、體系結(jié)構(gòu)以及HDFS中數(shù)據(jù)流的讀寫、HA機(jī)制和Federation機(jī)制,同時(shí)重點(diǎn)介紹了HDFS的命令行接口和Java接口。接著介紹了Hadoop I/O,講述了數(shù)據(jù)的完整性、文件壓縮、問價(jià)序列化和Hadoop文件的數(shù)據(jù)結(jié)構(gòu)。最后是對(duì)MapReduce的講解,由淺入深,講述了MapReduce的編程模型,MapReduce應(yīng)用編程開發(fā),包括MapReduce的類型格式,Java API解析,還重點(diǎn)講述了MapReduce的工作機(jī)制與YARN平臺(tái),包括MapReduce作業(yè)運(yùn)行機(jī)制的剖析、shuffle和排序、任務(wù)的執(zhí)行、作業(yè)調(diào)度、YARN平臺(tái)的簡(jiǎn)介和架構(gòu)。 第三部分為實(shí)戰(zhàn)部分,包括第10章和第11章。首先是從幾個(gè)具體的小實(shí)例講解了簡(jiǎn)單高效的MapReduce編程方式。然后通過最后的MapReduce編程實(shí)例,帶我們進(jìn)入大數(shù)據(jù)實(shí)戰(zhàn)項(xiàng)目,幫助學(xué)習(xí)者更深入地掌握Hadoop技術(shù)。 勘誤和支持 除本書編委會(huì)以外,參加本書編寫的工作人員有: 毛妍、白高平、趙真。由于本書編寫者水平有限,書中難免會(huì)出現(xiàn)一些錯(cuò)誤或者不準(zhǔn)確的地方,懇請(qǐng)讀者批評(píng)指正,可以將書中遇到的錯(cuò)誤和問題發(fā)郵件,希望您能提出更多寶貴的意見,期待您的真摯反饋。
中科普開(北京)科技有限公司成立于2010年,是國內(nèi)致力于IT新技術(shù)傳播、普及的領(lǐng)航者,專注于云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)技術(shù)的培訓(xùn)及咨詢服務(wù)。
第1章大數(shù)據(jù)概論001
1.1大數(shù)據(jù)時(shí)代背景001 1.1.1大數(shù)據(jù)的數(shù)據(jù)源001 1.1.2大數(shù)據(jù)的價(jià)值和影響002 1.1.3大數(shù)據(jù)技術(shù)應(yīng)用場(chǎng)景003 1.1.4大數(shù)據(jù)技術(shù)的發(fā)展前景004 1.2大數(shù)據(jù)基本概念005 1.2.1大數(shù)據(jù)定義005 1.2.2大數(shù)據(jù)結(jié)構(gòu)類型007 1.2.3大數(shù)據(jù)核心特征007 1.2.4大數(shù)據(jù)技術(shù)008 1.2.5行業(yè)應(yīng)用大數(shù)據(jù)實(shí)例010 1.3大數(shù)據(jù)系統(tǒng)011 1.3.1設(shè)計(jì)目標(biāo)和原則011 1.3.2當(dāng)前大數(shù)據(jù)系統(tǒng)012 1.4大數(shù)據(jù)與企業(yè)016 1.4.1大數(shù)據(jù)對(duì)企業(yè)的挑戰(zhàn)性016 1.4.2企業(yè)大數(shù)據(jù)的發(fā)展方向019 1.4.3企業(yè)大數(shù)據(jù)觀020 本章小結(jié)020 習(xí)題021 第2章初識(shí)Hadoop022 2.1Hadoop簡(jiǎn)介022 2.1.1Hadoop概況022 2.1.2Hadoop的功能和作用023 2.1.3Hadoop的優(yōu)勢(shì)023 2.1.4Hadoop的發(fā)展史024 2.1.5Hadoop的應(yīng)用前景025 2.2深入了解Hadoop025 2.2.1Hadoop的體系結(jié)構(gòu)025 2.2.2Hadoop與分布式開發(fā)027 2.2.3Hadoop生態(tài)系統(tǒng)029 2.3Hadoop與其他系統(tǒng)030 2.3.1Hadoop與關(guān)系型數(shù)據(jù)庫管理系統(tǒng)030 2.3.2Hadoop與云計(jì)算032 2.4Hadoop應(yīng)用案例032 2.4.1Hadoop在百度的應(yīng)用032 2.4.2Hadoop在Yahoo!的應(yīng)用033 2.4.3Hadoop在eBay的應(yīng)用035 本章小結(jié)037 習(xí)題037 大數(shù)據(jù) 技術(shù)基礎(chǔ) 目錄 第3章認(rèn)識(shí)HDFS039 3.1HDFS簡(jiǎn)介039 3.2HDFS的特性和設(shè)計(jì)目標(biāo)040 3.2.1HDFS的特性040 3.2.2HDFS的設(shè)計(jì)目標(biāo)041 3.3HDFS的核心設(shè)計(jì)042 3.3.1數(shù)據(jù)塊042 3.3.2數(shù)據(jù)復(fù)制042 3.3.3數(shù)據(jù)副本的存放策略043 3.3.4機(jī)架感知045 3.3.5安全模式046 3.3.6負(fù)載均衡047 3.3.7心跳機(jī)制048 3.4HDFS的體系結(jié)構(gòu)049 3.4.1Master/Slave架構(gòu)049 3.4.2NameNode、SecondaryNameNode、DataNode050 本章小結(jié)055 習(xí)題055 第4章HDFS的運(yùn)行機(jī)制056 4.1HDFS中數(shù)據(jù)流的讀寫056 4.1.1RPC實(shí)現(xiàn)流程056 4.1.2RPC實(shí)現(xiàn)模型057 4.1.3文件的讀取059 4.1.4文件的寫入060 4.1.5文件的一致模型061 4.2HDFS的HA機(jī)制062 4.2.1為什么有HA機(jī)制062 4.2.2HA集群和架構(gòu)063 4.3HDFS的Federation機(jī)制064 4.3.1為什么引入Federation機(jī)制064 4.3.2Federation架構(gòu)066 4.3.3多命名空間管理067 本章小結(jié)067 習(xí)題068 第5章訪問HDFS069 5.1命令行常用接口069 5.1.1HDFS操作體驗(yàn)069 5.1.2HDFS常用命令071 5.2Java接口073 5.2.1從Hadoop URL中讀取數(shù)據(jù)074 5.2.2通過FileSystem API讀取數(shù)據(jù)075 5.2.3寫入數(shù)據(jù)076 5.2.4創(chuàng)建目錄078 5.2.5查詢文件系統(tǒng)078 5.2.6刪除數(shù)據(jù)081 5.3其他常用接口081 5.3.1Thrift081 5.3.2C語言082 5.3.3HTTP082 本章小結(jié)082 習(xí)題083 第6章Hadoop I/O詳解084 6.1數(shù)據(jù)完整性084 6.1.1HDFS的數(shù)據(jù)完整性084 6.1.2驗(yàn)證數(shù)據(jù)完整性085 6.2文件壓縮086 6.2.1Hadoop支持的壓縮格式086 6.2.2壓縮解壓縮算法codec087 6.2.3壓縮和輸入分片091 6.3文件序列化092 6.3.1Writable接口093 6.3.2WritableComparable接口094 6.3.3Writable實(shí)現(xiàn)類095 6.3.4自定義Writable接口100 6.3.5序列化框架104 6.4Hadoop文件的數(shù)據(jù)結(jié)構(gòu)104 6.4.1SequenceFile存儲(chǔ)104 6.4.2MapFile存儲(chǔ)108 本章小結(jié)111 習(xí)題111第7章識(shí)識(shí)MapReduce編程模型113 7.1MapReduce編程模型簡(jiǎn)介113 7.1.1什么是MapReduce113 7.1.2MapReduce程序的設(shè)計(jì)方法114 7.1.3新舊MapReduce簡(jiǎn)介115 7.1.4Hadoop MapReduce架構(gòu)116 7.1.5MapReduce的優(yōu)缺點(diǎn)117 7.2WordCount編程實(shí)例118 7.2.1WordCount的設(shè)計(jì)思路118 7.2.2編寫WordCount代碼118 7.2.3運(yùn)行程序119 7.2.4代碼講解120 7.3MapReduce的編程122 7.3.1配置開發(fā)環(huán)境122 7.3.2編寫Mapper類124 7.3.3編寫Reducer類125 7.3.4編寫main函數(shù)125 7.4MapReduce在集群上的運(yùn)作127 7.4.1作業(yè)的打包和啟動(dòng)127 7.4.2MapReduce的Web界面128 7.4.3獲取結(jié)果130 本章小結(jié)131 習(xí)題131 第8章MapReduce應(yīng)用編程開發(fā)132 8.1MapReduce類型與格式132 8.1.1MapReduce的類型132 8.1.2輸入格式137 8.1.3輸出格式148 8.2Java API解析150 8.2.1作業(yè)配置與提交151 8.2.2InputFormat接口的設(shè)計(jì)與實(shí)現(xiàn)152 8.2.3OutputFormat接口的設(shè)計(jì)與實(shí)現(xiàn)157 8.2.4Mapper與Reducer解析159 本章小結(jié)163 習(xí)題163 第9MapReduce的工作機(jī)制與YARN平臺(tái)165 9.1YARN平臺(tái)簡(jiǎn)介165 9.1.1YARN的誕生165 9.1.2YARN的作用166 9.2YARN的架構(gòu)166 9.2.1ResourceManager167 9.2.2ApplicationMaster168 9.2.3NodeManager168 9.2.4資源模型169 9.2.5ResourceRequest和Container169 9.2.6Container規(guī)范170 9.3剖析MapReduce作業(yè)運(yùn)行機(jī)制170 9.4基于YARN的運(yùn)行機(jī)制剖析171 9.5Shuffle和排序175 9.5.1map端175 9.5.2reduce端176 9.6任務(wù)的執(zhí)行178 9.6.1任務(wù)執(zhí)行環(huán)境178 9.6.2推測(cè)執(zhí)行179 9.6.3關(guān)于OutputCommitters180 9.6.4任務(wù)JVM重用181 9.6.5跳過壞記錄182 9.7作業(yè)的調(diào)度182 9.7.1公平調(diào)度器183 9.7.2容量調(diào)度器183 9.8在YARN上運(yùn)行MapReduce實(shí)例184 9.8.1運(yùn)行Pi實(shí)例184 9.8.2使用Web GUI監(jiān)控實(shí)例185 本章小結(jié)189 習(xí)題190 第10章MapReduce高級(jí)開發(fā)191 10.1計(jì)數(shù)器191 10.1.1內(nèi)置計(jì)數(shù)器191 10.1.2自定義的Java計(jì)數(shù)器193 10.2數(shù)據(jù)去重194 10.2.1實(shí)例描述194 10.2.2設(shè)計(jì)思路194 10.2.3程序代碼194 10.3排序195 10.3.1實(shí)例描述196 10.3.2設(shè)計(jì)思路196 10.3.3程序代碼196 10.4二次排序197 10.4.1二次排序原理197 10.4.2二次排序的算法流程198 10.4.3代碼實(shí)現(xiàn)199 10.5平均值202 10.5.1實(shí)例描述202 10.5.2設(shè)計(jì)思路202 10.5.3程序代碼203 10.6Join聯(lián)接204 10.6.1Map端Join204 10.6.2Reduce端Join205 10.6.3Join實(shí)現(xiàn)表關(guān)聯(lián)205 10.7倒排索引209 10.7.1倒排索引的分析和設(shè)計(jì)209 10.7.2倒排索引完整源碼213 10.7.3運(yùn)行代碼結(jié)果214 本章小結(jié)215 習(xí)題215 第11章MapReduce實(shí)例216 11.1搜索引擎日志處理216 11.1.1背景介紹216 11.1.2數(shù)據(jù)收集216 11.1.3數(shù)據(jù)結(jié)構(gòu)216 11.1.4需求分析217 11.1.5MapReduce編碼實(shí)現(xiàn)217 11.2汽車銷售數(shù)據(jù)分析223 11.2.1背景介紹224 11.2.2數(shù)據(jù)收集224 11.2.3數(shù)據(jù)結(jié)構(gòu) 224 11.2.4需求分析224 11.2.5MapReduce編碼實(shí)現(xiàn)225 11.3農(nóng)產(chǎn)品價(jià)格分析234 11.3.1背景介紹234 11.3.2數(shù)據(jù)收集235 11.3.3數(shù)據(jù)結(jié)構(gòu)235 11.3.4需求分析236 11.3.5MapReduce編碼實(shí)現(xiàn)236 參考文獻(xiàn)248
第1章大數(shù)據(jù)概論
本章提要 在這個(gè)日新月異發(fā)展的社會(huì)中,人們發(fā)現(xiàn)未知領(lǐng)域的規(guī)律主要依賴抽樣數(shù)據(jù)、局部數(shù)據(jù)和片面數(shù)據(jù),甚至無法獲得真實(shí)數(shù)據(jù)時(shí)只能純粹依賴經(jīng)驗(yàn)、理論、假設(shè)和價(jià)值觀去認(rèn)識(shí)世界。因此,人們對(duì)世界的認(rèn)識(shí)往往是表面的、膚淺的、簡(jiǎn)單的、扭曲的或者是無知的。然而大數(shù)據(jù)時(shí)代的來臨使人類擁有更多的機(jī)會(huì)和條件在各個(gè)領(lǐng)域更深入地獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實(shí)世界的規(guī)律。大數(shù)據(jù)的出現(xiàn)幫助商家了解用戶、鎖定資源、規(guī)劃生產(chǎn)、做好運(yùn)營及開展服務(wù)。 本章主要從大數(shù)據(jù)時(shí)代背景、大數(shù)據(jù)基本概念、大數(shù)據(jù)系統(tǒng)以及大數(shù)據(jù)與企業(yè)等方面,讓讀者對(duì)大數(shù)據(jù)有初步的認(rèn)識(shí)。 1.1大數(shù)據(jù)時(shí)代背景 中國龐大的人數(shù)和應(yīng)用市場(chǎng),其復(fù)雜性高并且充滿變化,從而成為世界上擁有最復(fù)雜的大數(shù)據(jù)的國家。解決這種由大規(guī)模數(shù)據(jù)引發(fā)的問題,探索以大數(shù)據(jù)為基礎(chǔ)的解決方案,是中國產(chǎn)業(yè)升級(jí)、效率提高的重要手段。因此,解決大數(shù)據(jù)這一問題不僅提高公司的競(jìng)爭(zhēng)力,也能提高國家競(jìng)爭(zhēng)力。 1.1.1大數(shù)據(jù)的數(shù)據(jù)源 近年來,隨著信息技術(shù)的發(fā)展,我國在各個(gè)領(lǐng)域產(chǎn)生了海量數(shù)據(jù),主要分布如下。 1. 以BAT為代表的互聯(lián)網(wǎng)公司 (1) 阿里巴巴: 目前保存的數(shù)據(jù)量為近百個(gè)拍字節(jié)(PB),90%以上是電商數(shù)據(jù)、交易數(shù)據(jù)、用戶瀏覽和點(diǎn)擊網(wǎng)頁數(shù)據(jù)、購物數(shù)據(jù)。 (2) 百度: 2013年的數(shù)據(jù)總量接近一千個(gè)拍字節(jié)(PB),主要來自中文網(wǎng)、百度推廣、百度日志、UGC,由于占有70%以上的搜索市場(chǎng)份額從而坐擁龐大的搜索數(shù)據(jù)。 (3) 騰訊: 存儲(chǔ)數(shù)據(jù)經(jīng)壓縮處理后總量在100PB左右,數(shù)據(jù)量月增10%,主要是大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)。 大數(shù)據(jù) 技術(shù)基礎(chǔ) 00第1章 大數(shù)據(jù)概論 002. 電信、金融與保險(xiǎn)、電力與石化系統(tǒng) (1) 電信: 包括用戶上網(wǎng)記錄、通話、信息、地理位置等。運(yùn)營商擁有的數(shù)據(jù)量都在10PB以上,年度用戶數(shù)據(jù)增長(zhǎng)數(shù)十拍字節(jié)(PB)。 (2) 金融與保險(xiǎn): 包括開戶信息數(shù)據(jù)、銀行網(wǎng)點(diǎn)和在線交易數(shù)據(jù)、自身運(yùn)營的數(shù)據(jù)等。金融系統(tǒng)每年產(chǎn)生數(shù)據(jù)達(dá)數(shù)十拍字節(jié)(PB),保險(xiǎn)系統(tǒng)數(shù)據(jù)量也接近拍字節(jié)(PB)級(jí)別。 (3) 電力與石化: 僅國家電網(wǎng)采集獲得的數(shù)據(jù)總量就達(dá)到10個(gè)拍字節(jié)(PB)級(jí)別,石化行業(yè)、智能水表等每年產(chǎn)生和保存下來的數(shù)據(jù)量也達(dá)到數(shù)十拍字節(jié)(PB)級(jí)別。 3. 公共安全、醫(yī)療、交通領(lǐng)域 (1) 公共安全: 在北京,就有50萬個(gè)監(jiān)控?cái)z像頭,每天采集視頻數(shù)量約3PB,整個(gè)視頻監(jiān)控每年保存下來的數(shù)據(jù)在數(shù)百拍字節(jié)(PB)以上。 (2) 醫(yī)療衛(wèi)生: 據(jù)了解,整個(gè)醫(yī)療衛(wèi)生行業(yè)一年能夠保存下來的數(shù)據(jù)就可達(dá)到數(shù)百PB。 (3) 交通: 航班往返一次就能產(chǎn)生太字節(jié)(TB)級(jí)別的海量數(shù)據(jù);列車、水陸路運(yùn)輸產(chǎn)生的各種視頻、文本類數(shù)據(jù),每年保存下來的也達(dá)到數(shù)十拍字節(jié)(PB)。 4. 氣象與地理、政務(wù)與教育等領(lǐng)域 (1) 氣象與地理: 中國幅頁遼闊,氣象局保存的數(shù)據(jù)為4~5PB,每年約增數(shù)百個(gè)太字節(jié)(TB),各種地圖和地理位置信息每年約增數(shù)十太字節(jié)(PB)。 (2) 政務(wù)與教育: 北京市政務(wù)數(shù)據(jù)資源網(wǎng)涵蓋旅游、教育、交通、醫(yī)療等門類,一年上線公布400余個(gè)數(shù)據(jù)包。政務(wù)數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù)。 5. 其他行業(yè) 線下商業(yè)銷售、農(nóng)林牧漁業(yè)、線下餐飲、食品、科研、物流運(yùn)輸?shù)刃袠I(yè)數(shù)據(jù)量還處于積累期,整個(gè)體積都不算大,多則達(dá)到拍字節(jié)(PB)級(jí)別,少則幾百太字節(jié)(TB),甚至只有數(shù)十太字節(jié)(TB)級(jí)別,但增速很快。 1.1.2大數(shù)據(jù)的價(jià)值和影響 數(shù)量巨大、與微觀情境相結(jié)合的運(yùn)行記錄信息的最終結(jié)果就是大數(shù)據(jù)。盡管運(yùn)行記錄信息不是大數(shù)據(jù)的全部,但卻應(yīng)該是以后大數(shù)據(jù)的主流。目前看得到的金融、電信、航空、電商、零售渠道等領(lǐng)域中的大數(shù)據(jù),多數(shù)也都是運(yùn)行記錄信息。大數(shù)據(jù)具有采集過程價(jià)值未知、力爭(zhēng)全面、即時(shí)、系統(tǒng)性并發(fā)的記錄方式,以及主受體統(tǒng)一和大微觀的特征,這些特征決定了大數(shù)據(jù)的價(jià)值發(fā)揮。 大數(shù)據(jù)的應(yīng)用很廣泛,解決了大量的日常問題。大數(shù)據(jù)是利害攸關(guān)的,它將重塑人們的生活、工作和思維方式,比其他劃時(shí)代創(chuàng)新引起的社會(huì)信息范圍和規(guī)模急劇擴(kuò)大所帶來的影響更大。大數(shù)據(jù)需要人們重新討論決策、命運(yùn)和正義的性質(zhì)。人們的世界觀正受到大數(shù)據(jù)優(yōu)勢(shì)的挑戰(zhàn),擁有大數(shù)據(jù)不但意味著掌握過去,更意味著能夠預(yù)測(cè)未來。因此,大數(shù)據(jù)給人們帶來了巨大的價(jià)值和影響。 (1) 全面洞察客戶信息。全面分析來自渠道的反饋、社會(huì)傳媒等多源信息,讓每個(gè)客戶作為個(gè)體了解全景。 (2) 提升企業(yè)的資源管理: 利用實(shí)時(shí)數(shù)據(jù)實(shí)現(xiàn)預(yù)測(cè)性維護(hù),并減少故障,推動(dòng)產(chǎn)品和服務(wù)開發(fā)。 (3) 數(shù)據(jù)深度利用。梳理結(jié)構(gòu)化、非結(jié)構(gòu)化、海量歷史/實(shí)時(shí)、地理信息4類數(shù)據(jù)資源,以企業(yè)核心業(yè)務(wù)及應(yīng)用為主線實(shí)現(xiàn)四類數(shù)據(jù)資源的關(guān)聯(lián)利用。 (4) 風(fēng)險(xiǎn)及時(shí)感知和控制。通過全面數(shù)據(jù)分析改進(jìn)風(fēng)險(xiǎn)模型,結(jié)合交易流數(shù)據(jù)實(shí)時(shí)捕獲風(fēng)險(xiǎn),及時(shí)有效地控制。 (5) 輔助智能決策。實(shí)時(shí)分析所有的運(yùn)營數(shù)據(jù)和效果反饋,優(yōu)化運(yùn)營流程。利用投資回報(bào)率最大程度減少信息技術(shù)成本。 (6) 更快和更大規(guī)模的產(chǎn)品創(chuàng)新。多源捕獲市場(chǎng)反饋,利用海量市場(chǎng)數(shù)據(jù)和研究數(shù)據(jù)來快速驅(qū)動(dòng)創(chuàng)新。 1.1.3大數(shù)據(jù)技術(shù)應(yīng)用場(chǎng)景 當(dāng)前,大數(shù)據(jù)技術(shù)的應(yīng)用涉及各個(gè)行業(yè)領(lǐng)域。 1. 大數(shù)據(jù)在金融行業(yè)的應(yīng)用 近年來,隨著“互聯(lián)網(wǎng)金融”概念的興起,催生了一大批金融、類金融機(jī)構(gòu)轉(zhuǎn)型或布局的服務(wù)需求,相關(guān)產(chǎn)業(yè)服務(wù)應(yīng)運(yùn)而生。而隨著互聯(lián)網(wǎng)金融向縱深發(fā)展,行業(yè)競(jìng)爭(zhēng)日趨白熱化,金融、類金融機(jī)構(gòu)在其中的短板日益凸顯。為了更好地獲得最佳商機(jī),金融行業(yè)也步入了大數(shù)據(jù)時(shí)代。 華爾街某公司通過分析全球3.4億微博賬戶留言來判斷民眾情緒。人們高興的時(shí)候會(huì)買股票,而焦慮的時(shí)候會(huì)拋售股票,它通過判斷全世界高興的人多還是焦慮的人多來決定公司股票的買入還是賣出。 阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財(cái)務(wù)健康和誠信經(jīng)營的企業(yè),給他們提供貸款,并且不需要這些中小企業(yè)的擔(dān)保。目前阿里公司已放貸款上千億元,壞賬率僅為0.3%。 2. 大數(shù)據(jù)在政府的應(yīng)用 為充分運(yùn)用大數(shù)據(jù)的先進(jìn)理念、技術(shù)和資源,加強(qiáng)對(duì)我國各地市場(chǎng)主體的服務(wù)和監(jiān)管,推進(jìn)簡(jiǎn)政放權(quán)和政府職能轉(zhuǎn)變,提高政府治理能力,我國一些省市運(yùn)用大數(shù)據(jù)加強(qiáng)對(duì)市場(chǎng)主體服務(wù)和監(jiān)管實(shí)施方案已然出爐。 3. 大數(shù)據(jù)在醫(yī)療健康的應(yīng)用 隨著醫(yī)療衛(wèi)生信息化建設(shè)進(jìn)程的不斷加快,醫(yī)療數(shù)據(jù)的類型和規(guī)模也在以前所未有的速度迅猛增長(zhǎng),甚至產(chǎn)生了無法利用目前主流軟件工具的現(xiàn)象,這些醫(yī)療數(shù)據(jù)能幫助醫(yī)改在合理的時(shí)間內(nèi)達(dá)到擷取、管理信息并整合成為能夠幫助醫(yī)院進(jìn)行更積極的經(jīng)營決策的有用信息。這些具有特殊性、復(fù)雜性的龐大的醫(yī)療大數(shù)據(jù),僅靠個(gè)人甚至個(gè)別機(jī)構(gòu)來進(jìn)行搜索,那基本是不可能完成的。 4. 大數(shù)據(jù)在宏觀經(jīng)濟(jì)管理領(lǐng)域的應(yīng)用 IBM日本分公司建立了一個(gè)經(jīng)濟(jì)指標(biāo)預(yù)測(cè)系統(tǒng),它從互聯(lián)網(wǎng)新聞中搜索出能影響制造業(yè)的480項(xiàng)經(jīng)濟(jì)數(shù)據(jù),再利用這些數(shù)據(jù)進(jìn)行預(yù)測(cè),準(zhǔn)確度相當(dāng)高。 印第安納大學(xué)學(xué)者利用Google提供的心情分析工具,根據(jù)用戶近千萬條短信、微博留言預(yù)測(cè)瓊斯工業(yè)指數(shù),準(zhǔn)確率高達(dá)87%。 淘寶網(wǎng)建立了“淘寶CPI”,通過采集、編制淘寶網(wǎng)上390個(gè)類目的熱門商品價(jià)格來統(tǒng)計(jì)CPI,預(yù)測(cè)某個(gè)時(shí)間段的經(jīng)濟(jì)走勢(shì)比國家統(tǒng)計(jì)局的CPI還提前半個(gè)月。 5. 大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用 由Google前雇員創(chuàng)辦Climate公司,從美國氣象局等數(shù)據(jù)庫中獲得幾十年的天氣數(shù)據(jù),各地的降雨、氣溫和土壤狀況及歷年農(nóng)作物產(chǎn)量做成緊湊的圖表,從而能夠預(yù)測(cè)美國任一農(nóng)場(chǎng)下一年的產(chǎn)量。農(nóng)場(chǎng)主可以去該公司咨詢明年種什么能賣出去、能賺錢,說錯(cuò)了該公司負(fù)責(zé)賠償,賠償金額比保險(xiǎn)公司還要高,但到目前為止還沒賠過。 通過對(duì)手機(jī)上的農(nóng)產(chǎn)品“移動(dòng)支付”數(shù)據(jù)、“采購?fù)度搿睌?shù)據(jù)和“補(bǔ)貼”數(shù)據(jù)分析,可準(zhǔn)確預(yù)測(cè)農(nóng)產(chǎn)品生產(chǎn)趨勢(shì),政府可依此決定出臺(tái)激勵(lì)實(shí)施和確定合適的作物存儲(chǔ)量,還可以為農(nóng)民提供服務(wù)。 6. 大數(shù)據(jù)在商業(yè)領(lǐng)域的應(yīng)用 沃爾瑪基于每個(gè)月4500萬的網(wǎng)絡(luò)購物數(shù)據(jù),并結(jié)合社交網(wǎng)絡(luò)上有關(guān)產(chǎn)品的大眾評(píng)分,開發(fā)機(jī)器學(xué)習(xí)語義搜索引擎“北極星”,方便瀏覽,在線購物者因此增加10%~15%,銷售額增加十多億美元。 沃爾瑪通過手機(jī)定位,可以分析顧客在貨柜前停留時(shí)間的長(zhǎng)短,從而判斷顧客對(duì)什么商品感興趣。 不僅僅是通過手機(jī)定位,實(shí)際上美國有的超市在購物推車上也安裝了位置傳感器,根據(jù)顧客在不同貨物前停留時(shí)間的長(zhǎng)短來分析顧客可能的購物行為。 在淘寶網(wǎng)上買東西時(shí),消費(fèi)者會(huì)在阿里的廣告交易平臺(tái)上留下記錄,阿里不僅從交易記錄平臺(tái)把消費(fèi)記錄拿來供自己使用,還會(huì)把消費(fèi)記錄賣給其他商家。 7. 大數(shù)據(jù)在銀行的應(yīng)用 在信用卡服務(wù)方面,銀行首先利用移動(dòng)互聯(lián)網(wǎng)技術(shù)的定位功能確定商圈,目前已實(shí)際覆蓋全國161個(gè)商圈,累計(jì)服務(wù)千萬人次;其次利用用戶活動(dòng)軌跡追蹤,確定高價(jià)值商業(yè)圈設(shè)計(jì)業(yè)務(wù);再利用大數(shù)據(jù)進(jìn)行客戶需求的體驗(yàn)分析。既包括客戶的需要,也包括客戶的體驗(yàn),最終實(shí)現(xiàn)用戶體驗(yàn)的LIKE曲線。 1.1.4大數(shù)據(jù)技術(shù)的發(fā)展前景 據(jù)預(yù)測(cè),到2020年,全球需要存儲(chǔ)的數(shù)據(jù)量將達(dá)到35萬億吉字節(jié)(GB),是2009年數(shù)據(jù)存儲(chǔ)量的44倍。根據(jù)IDC的研究,2010年底全球的數(shù)據(jù)量已達(dá)到120萬拍字節(jié)(PB)。這些數(shù)據(jù)如果使用光盤存儲(chǔ),摞起來可以從地球到月球一個(gè)來回。對(duì)于商業(yè)而言,這里孕育著巨大的市場(chǎng)機(jī)會(huì),龐大的數(shù)據(jù)就是一個(gè)信息金礦。數(shù)據(jù)是企業(yè)的重要資產(chǎn)。因此,大數(shù)據(jù)將人們帶進(jìn)了一個(gè)更有前景的領(lǐng)域。 在大數(shù)據(jù)時(shí)代,一批新的大數(shù)據(jù)技術(shù)正在涌現(xiàn),將改變?nèi)藗兎治鎏幚砗A繑?shù)據(jù)的方式,使人們更快、更經(jīng)濟(jì)地獲得所需的結(jié)果。傳統(tǒng)商業(yè)智能限于技術(shù)瓶頸很大程度上是對(duì)抽樣數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)技術(shù)就是要打破傳統(tǒng)商業(yè)智能領(lǐng)域的局限。大數(shù)據(jù)技術(shù)不但能處理結(jié)構(gòu)化數(shù)據(jù),還能分析和處理各種半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),甚至從某種程度上,更擅長(zhǎng)處理非結(jié)構(gòu)化數(shù)據(jù),例如Hadoop。而在現(xiàn)實(shí)生活中,這樣的數(shù)據(jù)更為普遍,增長(zhǎng)得更為迅速。例如,社交媒體中的各種交互活動(dòng)、購物網(wǎng)站用戶點(diǎn)擊行為、圖片、電子郵件等?梢哉f,正是此類數(shù)據(jù)的爆炸性催生了大數(shù)據(jù)相關(guān)技術(shù)的出現(xiàn)和完善,從而讓人們知道在一個(gè)資源有限的世界中應(yīng)該提取哪些有價(jià)值的信息。 大數(shù)據(jù)技術(shù)的出現(xiàn)和完善還可以幫助健康保險(xiǎn)公司不做體檢就能決定保險(xiǎn)覆蓋面,并降低提醒病人服藥的成本。通過大數(shù)據(jù)的相關(guān)性,語言可以得到翻譯,汽車可以在預(yù)測(cè)的基礎(chǔ)上自行駕駛。人們之所以能做所有的這些事,新工具的使用只是一個(gè)很小的因素,比擁有更快的處理器、更多的存儲(chǔ)器,更智能的軟件和算法更重要的是,人們擁有了更多的數(shù)據(jù),繼而世界上更多的事物被數(shù)據(jù)化了。顯然,人類量化世界的雄心先于計(jì)算機(jī)革命,但是數(shù)字工具將數(shù)據(jù)化提升到了新的高度。不僅移動(dòng)電話能夠跟蹤到呼叫的人和被呼叫人所在的位置,而且同樣的數(shù)據(jù)也能用于斷定來人是否生病了。 能置身于信息流中央并且能夠收集數(shù)據(jù)的公司通常會(huì)繁榮興旺。有效利用大數(shù)據(jù)需要專業(yè)技術(shù)和豐富的想象力,即一個(gè)能容納大數(shù)據(jù)的心態(tài),但價(jià)值的核心歸功于數(shù)據(jù)本身。有時(shí),重要的資產(chǎn)并不僅僅是能清楚看到的信息,聰明的公司可以用它來改善現(xiàn)有的服務(wù),或推出全新的服務(wù)。 大數(shù)據(jù)將成為理解和解決當(dāng)今許多緊迫的全球問題所不可或缺的重要工具。在應(yīng)對(duì)氣候變化問題時(shí),需要對(duì)污染相關(guān)的數(shù)據(jù)進(jìn)行分析得出最佳方案,從而明確努力方向,找出解決問題的方法。全球范圍內(nèi)遍布的大量傳感設(shè)備,包括智能手機(jī)內(nèi)部的傳感器,使人們能以更高的細(xì)節(jié)水平模擬環(huán)境。而世界貧困人口迫切需要提高醫(yī)療保健服務(wù),降低醫(yī)療費(fèi)用,這很大程度上可以靠自動(dòng)化來實(shí)現(xiàn)。當(dāng)下許多似乎需要人類判斷力才能進(jìn)行的事情,其實(shí)可以完全交由計(jì)算機(jī)來做,比如癌細(xì)胞活檢、傳染病爆發(fā)前期的模式預(yù)測(cè)等。 大數(shù)據(jù)也被用于發(fā)展經(jīng)濟(jì)和理解如何預(yù)防沖突;谑謾C(jī)動(dòng)向數(shù)據(jù)顯示,非洲許多貧民窟地區(qū)經(jīng)濟(jì)活動(dòng)十分活躍。大數(shù)據(jù)還揭示了最有可能引發(fā)種族關(guān)系緊張的社區(qū)以及解除難民危機(jī)的方式。只有當(dāng)科技應(yīng)用于生活的方方面面時(shí),大數(shù)據(jù)的使用范圍才能進(jìn)一步擴(kuò)大。 大數(shù)據(jù)能幫助人們更好地進(jìn)行已有的工作,并處理全新事務(wù)。在不久的將來,人們將在生活的方方面面使用到大數(shù)據(jù)。當(dāng)大數(shù)據(jù)成為日常生活的一部分后,它將會(huì)極大地改變?nèi)藗儗?duì)未來的看法。 大數(shù)據(jù)時(shí)代造就了一個(gè)數(shù)據(jù)庫無所不在的世界,數(shù)據(jù)監(jiān)管部門面臨前所未有的壓力和責(zé)任。如何避免數(shù)據(jù)泄露對(duì)國家利益、公眾利益、個(gè)人隱私造成傷害?如何避免信息不對(duì)稱,對(duì)困難群體的利益構(gòu)成傷害?在有效控制風(fēng)險(xiǎn)之前,也許還是讓“大數(shù)據(jù)”繼續(xù)待在籠子里更好一些。 大數(shù)據(jù)的經(jīng)濟(jì)價(jià)值已經(jīng)被人們認(rèn)可,大數(shù)據(jù)的技術(shù)正逐漸成熟,一旦完成數(shù)據(jù)的整合和監(jiān)管,大數(shù)據(jù)爆發(fā)的時(shí)代即將到來。人們現(xiàn)在要做的,就是選好自己的方向,為迎接大數(shù)據(jù)的到來提前做好準(zhǔn)備。 以未來的視角看,無論是政府、互聯(lián)網(wǎng)公司、IT企業(yè),還是行業(yè)用戶,只要以開放的心態(tài)、創(chuàng)新的勇氣擁抱“大數(shù)據(jù)”,大數(shù)據(jù)時(shí)代就一定有屬于中國的機(jī)會(huì)。 1.2大數(shù)據(jù)基本概念〖*2〗1.2.1大數(shù)據(jù)定義麥肯錫(美國首屈一指的咨詢公司)是研究大數(shù)據(jù)的先驅(qū)。在其報(bào)告《Big data: The next frontier for innovation,competition and productivity》中給出的大數(shù)據(jù)定義是: 大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。但它同時(shí)強(qiáng)調(diào),并不是說一定要超過特定太字節(jié)(TB)值的數(shù)據(jù)集才能算是大數(shù)據(jù)。 國際數(shù)據(jù)公司(IDC)從大數(shù)據(jù)的四個(gè)特征來定義,即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價(jià)值(Value)。 亞馬遜公司(全球最大的電子商務(wù)公司)的大數(shù)據(jù)科學(xué)家John Rauser 給出了一個(gè)簡(jiǎn)單的定義: 大數(shù)據(jù)是任何超過了一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量。 維基百科中只有短短的一句話: “巨量資料(Big Data),或稱大數(shù)據(jù),指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊! 而在百度百科中是這樣定義的: “大數(shù)據(jù)(Big Data),是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合! 綜合上面的定義,可以得出以下幾點(diǎn)。 (1) 大數(shù)據(jù)并沒有明確的界限,它的標(biāo)準(zhǔn)是可變的。大數(shù)據(jù)在今天的不同行業(yè)中的范圍可以從幾十太字節(jié)(TB)到幾拍字節(jié)(PB),但在20年前1GB的數(shù)據(jù)已然是大數(shù)據(jù)了?梢,隨著計(jì)算機(jī)軟硬件技術(shù)的發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會(huì)增長(zhǎng)。 (2) 大數(shù)據(jù)不僅僅只是大,它還包含了數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲(chǔ)、分析和管理能力的意思。 IDC報(bào)告顯示,計(jì)到2020年全球數(shù)據(jù)總量將超過40ZB(相當(dāng)于4萬億GB),這一數(shù)據(jù)量是2011年的22倍。在過去幾年,全球的數(shù)據(jù)量以每年58%的速度增長(zhǎng),在未來這個(gè)速度會(huì)更快。如果按照現(xiàn)在存儲(chǔ)容量每年增長(zhǎng)40%的速度計(jì)算,到2017年需要存儲(chǔ)的數(shù)據(jù)量甚至?xí)笥诖鎯?chǔ)設(shè)備的總?cè)萘。如何利用大?shù)據(jù)解決科研、醫(yī)療、能源、商業(yè)、政府管理、城市建設(shè)等領(lǐng)域的問題,是全世界面臨的問題。 舉幾個(gè)大家熟悉例子: 2014年11月19日,百度在京召開“百度云兩周年媒體溝通會(huì)”,正式宣布百度云總用戶數(shù)突破兩億,百度云數(shù)據(jù)存儲(chǔ)量達(dá)5EB,這些數(shù)據(jù)足以塞滿3.4億部16GB內(nèi)存的iPhone6,如果將這些手機(jī)首尾相連,可以在地球和月球之間搭建16條星際通道。 2014年3月7日,在阿里巴巴有史以來最大型對(duì)外開放的數(shù)據(jù)峰會(huì)“2014西湖品學(xué)大數(shù)據(jù)峰會(huì)”上,阿里巴巴大數(shù)據(jù)負(fù)責(zé)人披露了阿里巴巴目前的數(shù)據(jù)儲(chǔ)存情況。目前在阿里巴巴數(shù)據(jù)平臺(tái)事業(yè)部的服務(wù)器上,攢下了超過100PB已處理過的數(shù)據(jù),等于104857600GB,相當(dāng)于4萬個(gè)西雅圖中央圖書館,580億本藏書。僅淘寶和天貓兩個(gè)子公司每日新增的數(shù)據(jù)量,就足以讓一個(gè)人連續(xù)不斷看上28年的電影。而如果將一個(gè)人作為服務(wù)器,則此人處理的數(shù)據(jù)量相當(dāng)于每秒鐘看上837集的《來自星星的你》。 在2013年的數(shù)據(jù)大會(huì)上,騰訊公司數(shù)據(jù)平臺(tái)總經(jīng)理助理蔣杰透露,騰訊QQ目前擁有8億用戶、4億移動(dòng)用戶,在數(shù)據(jù)倉庫存儲(chǔ)的數(shù)據(jù)量單機(jī)群數(shù)量已達(dá)到4400臺(tái),總存儲(chǔ)數(shù)據(jù)量經(jīng)壓縮處理后約100PB,并且這一數(shù)據(jù)還在日增200~300TB、月增加率為10%的速度增長(zhǎng)。 1993 年,《紐約客》刊登了一幅漫畫,標(biāo)題是“互聯(lián)網(wǎng)上,沒有人知道你是一條狗”。據(jù)說作者彼得·施泰納因?yàn)榇寺嫷闹赜《嵢×顺^5 萬美元。當(dāng)時(shí)關(guān)注互聯(lián)網(wǎng)社會(huì)學(xué)的一些專家,甚至擔(dān)憂“計(jì)算機(jī)異性扮裝”而引發(fā)的社會(huì)問題。 20多年后,互聯(lián)網(wǎng)發(fā)生了巨大的變化,移動(dòng)互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了互聯(lián)網(wǎng)的疆界和應(yīng)用領(lǐng)域。人們?cè)谙硎鼙憷耐瑫r(shí),也無償貢獻(xiàn)了自己的“行蹤”,F(xiàn)在互聯(lián)網(wǎng)不但知道對(duì)面是一條狗,還知道這條狗喜歡什么食物、幾點(diǎn)出去遛彎、幾點(diǎn)回窩睡覺。人們不得不接受這個(gè)現(xiàn)實(shí),每個(gè)人在互聯(lián)網(wǎng)進(jìn)入到大數(shù)據(jù)時(shí)代都將是透明存在的。 1.2.2大數(shù)據(jù)結(jié)構(gòu)類型 當(dāng)今企業(yè)存儲(chǔ)的數(shù)據(jù)不僅僅是內(nèi)容多,而且結(jié)構(gòu)已發(fā)生了極大改變,不再僅僅是以二維表的規(guī)范結(jié)構(gòu)存儲(chǔ)。大量的數(shù)據(jù)來自不是結(jié)構(gòu)化的數(shù)據(jù)類型(半結(jié)構(gòu)化數(shù)據(jù)、準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)),如辦公文檔、文本、圖片、XML、 HTML、各類報(bào)表、圖片、音頻和視頻等,并且這些數(shù)據(jù)在企業(yè)的所有數(shù)據(jù)中是大量且增長(zhǎng)迅速的。企業(yè)80%的數(shù)據(jù)來自不是結(jié)構(gòu)化的數(shù)據(jù)類型,結(jié)構(gòu)化數(shù)據(jù)僅有20%。全球結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)速度約為32%,而不是結(jié)構(gòu)化的數(shù)據(jù)類型增速高達(dá)63%。預(yù)計(jì)今年不是結(jié)構(gòu)化的數(shù)據(jù)類型占有比例將達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上。 (1) 結(jié)構(gòu)化數(shù)據(jù): 包括預(yù)定義的數(shù)據(jù)類型、格式和結(jié)構(gòu)的數(shù)據(jù)。例如,關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)。 (2) 半結(jié)構(gòu)化數(shù)據(jù): 具有可識(shí)別的模式并可以解析的文本數(shù)據(jù)文件。例如,自描述和具有定義模式的XML數(shù)據(jù)文件。 (3) 準(zhǔn)結(jié)構(gòu)化數(shù)據(jù): 具有不規(guī)則數(shù)據(jù)格式的文本數(shù)據(jù),使用工具可以使之格式化。例如,包含不一致的數(shù)據(jù)值和格式化的網(wǎng)站點(diǎn)擊數(shù)據(jù),可參考http://www.zkpk.org/。 (4) 非結(jié)構(gòu)化數(shù)據(jù): 沒有固定結(jié)構(gòu)的數(shù)據(jù),通常保存為不同類型的文件。例如,文本文檔、圖片、音頻和視頻。 1.2.3大數(shù)據(jù)核心特征 業(yè)界通常用4個(gè)V,即Volume(數(shù)據(jù)量大)、Variety(類型繁多)、Value(價(jià)值密度低)、Velocity(速度快,時(shí)效高)來概括大數(shù)據(jù)的特征。 ……
你還可能感興趣
我要評(píng)論
|