在全世界不同的文化中,數(shù)據(jù)的收集與組織都有著悠久的歷史,甚至在計(jì)算機(jī)思想出現(xiàn)之前很久就已存在。但只是到了互聯(lián)網(wǎng)時(shí)代,日常產(chǎn)生的數(shù)據(jù)量才開始變得非常巨大,而且繼續(xù)呈指數(shù)級(jí)增長(zhǎng),其中包括我們上傳的文件、視頻、照片、社交媒體信息、在線購(gòu)物,甚至我們汽車的GPS導(dǎo)航數(shù)據(jù)。大數(shù)據(jù)這一術(shù)語(yǔ)所代表的不僅僅是一種量變,而是一種質(zhì)變;其所指涉的不僅是新的技術(shù),還有企業(yè)和政府利用它的方式。霍爾姆斯基于統(tǒng)計(jì)學(xué)、概率論和計(jì)算機(jī)科學(xué),對(duì)大數(shù)據(jù)這一主題進(jìn)行了概要性探討,并強(qiáng)調(diào)指出,大數(shù)據(jù)不僅改變了商業(yè)的運(yùn)營(yíng)模式,而且改變了醫(yī)療研究的進(jìn)行方式。與此同時(shí),它也引起了一些重要的倫理問題,作者據(jù)此對(duì)斯諾登事件、數(shù)據(jù)安全,以及家庭智能設(shè)備可能被黑客挾持等實(shí)例進(jìn)行了討論。
大數(shù)據(jù)在21世紀(jì)的頭二十年已經(jīng)深深地改變了我們的生活和工作,而且這種改變還將繼續(xù)深入下去,未來充滿了不確定。然而,大數(shù)據(jù)給我們帶來生活便利的同時(shí),也給我們帶來對(duì)侵犯隱私的恐懼。雖然我們無(wú)法完全把握大數(shù)據(jù)專家們會(huì)將算法引向何方,但了解一些大數(shù)據(jù)的基本知識(shí),至少可以讓我們減少一些內(nèi)心的不安。本書以簡(jiǎn)短的篇幅,以通俗易懂的方式,探討了當(dāng)下炙手可熱的大主題。
序 言
王崇駿
四方上下曰宇,往來古今曰宙!
從137億年前宇宙大爆炸,到46億年前地球誕生,再到38億年前地球上開始有生命,直至約6000年前文字的出現(xiàn)開啟了人類文明,這是一個(gè)多么漫長(zhǎng)的過程!與其他物種大多通過遺傳進(jìn)化不同,人類在進(jìn)化過程中發(fā)展和演化出了一種非遺傳性的繼承:通過獨(dú)一無(wú)二且日益發(fā)達(dá)的文化媒介(語(yǔ)言、文字以及有意識(shí)地利用外在物和工具的特質(zhì))將知識(shí)留給后代。這種文化傳承使得人類可以快速進(jìn)化,并最終成為這個(gè)星球的“統(tǒng)治者”。
在漫長(zhǎng)的人類文明發(fā)展史中,從源自動(dòng)物性的“數(shù)覺”到為了“征服”自然界,人類開始對(duì)“數(shù)”產(chǎn)生了需求,并且隨著這種需求的逐步膨脹,一系列的工具、算法、設(shè)備被不斷發(fā)明和創(chuàng)造,比如早期的計(jì)時(shí)工具、計(jì)數(shù)工具,以及諸如算籌、算盤等算術(shù)工具。隨著計(jì)算理論的豐富,以及機(jī)械工藝的進(jìn)步,人們開始思考如何用更為精巧的設(shè)備進(jìn)行計(jì)算,如納皮爾籌、機(jī)械尺、機(jī)械計(jì)算機(jī)等;而圖靈機(jī)理論的發(fā)明、馮諾伊曼體系結(jié)構(gòu)的提出,以及1946年ENIAC的發(fā)明,則讓數(shù)字計(jì)算時(shí)代就此來臨。
在后ENIAC時(shí)代,計(jì)算機(jī)從最開始的軍用走向了民用,其功能不斷發(fā)展和豐富,從最開始的數(shù)值計(jì)算走向網(wǎng)絡(luò)通信、計(jì)算感知,并逐漸應(yīng)用于生活?yuàn)蕵泛推髽I(yè)管理。與此同時(shí),也因?yàn)橛?jì)算機(jī)在各個(gè)領(lǐng)域的滲透和深入應(yīng)用,計(jì)算機(jī)從最原始的計(jì)算工具變?yōu)橐粋(gè)研究對(duì)象,伴隨著各類計(jì)算理論的發(fā)展,計(jì)算機(jī)科學(xué)與技術(shù)、工程和應(yīng)用也得到持續(xù)的發(fā)展和推進(jìn)。在這個(gè)發(fā)展過程中,傳統(tǒng)的“數(shù)”的內(nèi)涵,也從最開始的“數(shù)值”不斷拓展,數(shù)據(jù)開始以不同的類型、模態(tài)、視圖樣式出現(xiàn),并服務(wù)于人們的需求,傳統(tǒng)意義的“數(shù)值”則成為一種數(shù)據(jù)類型。
信息技術(shù),尤其是互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,煙囪式軟件開發(fā)模式、云計(jì)算在不同領(lǐng)域的不斷滲透,以及人們?nèi)找娑鄻踊退槠男袨榉绞,或許還有其他更多的原因,讓人們?cè)跀?shù)據(jù)層面不得不面對(duì)“大數(shù)據(jù)”這樣的難題,即難以在期望的時(shí)間內(nèi)利用常規(guī)工具進(jìn)行有效處理并獲得期望的價(jià)值。在當(dāng)下的大數(shù)據(jù)時(shí)代,傳統(tǒng)意義的“數(shù)據(jù)”成為一種可以交易的“資產(chǎn)”,一種具有戰(zhàn)略資源意義的“石油”,一種提高競(jìng)爭(zhēng)力的“資本”,一種用于科學(xué)研究的“第四范式”。出于對(duì)大數(shù)據(jù)價(jià)值期望的共同追求,社會(huì)各界都對(duì)大數(shù)據(jù)產(chǎn)生了極大的興趣、熱情和期盼,使得“大數(shù)據(jù)”這個(gè)概念從其誕生之日起,就得到了“政、產(chǎn)、學(xué)、研、商、用”的一致認(rèn)同,并引起了包括哲學(xué)家、科學(xué)家、技術(shù)研究者和工程研發(fā)人員等的普遍關(guān)注。
牛津通識(shí)讀本《大數(shù)據(jù)》一書,當(dāng)然也是對(duì)這一社會(huì)關(guān)注點(diǎn)的回應(yīng)。道恩??E.霍爾姆斯教授是貝葉斯網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方面的專家,她用深入淺出的文字扼要介紹了什么是數(shù)據(jù)、什么是大數(shù)據(jù)以及它有什么意義,進(jìn)而對(duì)大數(shù)據(jù)應(yīng)用所涉及的存儲(chǔ)和分析技術(shù)進(jìn)行了簡(jiǎn)明扼要的綜述,并在此基礎(chǔ)上,分析和研判了大數(shù)據(jù)在醫(yī)學(xué)、電子商務(wù)、安全、生活等各個(gè)領(lǐng)域的應(yīng)用。這樣一本概述性質(zhì)的通俗讀物,非常有助于普通讀者更多地了解大數(shù)據(jù),學(xué)習(xí)大數(shù)據(jù),應(yīng)用大數(shù)據(jù),進(jìn)而培養(yǎng)一種大數(shù)據(jù)思維,惟其如此,才能適應(yīng)未來的大數(shù)據(jù)時(shí)代。
對(duì)于本書所涉及的內(nèi)容,筆者還想做一些補(bǔ)充說明,即看待大數(shù)據(jù)的三個(gè)視角和四個(gè)維度,以使讀者對(duì)于大數(shù)據(jù)的認(rèn)識(shí)更加全面。首先談?wù)勅齻(gè)視角。
一是計(jì)算視角:從計(jì)算視角來看,大數(shù)據(jù)是一個(gè)難以獲取、難以組織與管理、難以處理和分析的技術(shù)難題(以及因此而引發(fā)的各類思維層難題),也正是因?yàn)檫@樣的難題驅(qū)動(dòng),加之人們對(duì)大數(shù)據(jù)在優(yōu)政、興業(yè)、科研、惠民等不同領(lǐng)域的價(jià)值期望,促使相關(guān)科研人員進(jìn)行技術(shù)攻關(guān)和發(fā)明創(chuàng)造,進(jìn)而推進(jìn)了相關(guān)理論和技術(shù)的發(fā)展。
二是科研視角:從科學(xué)研究的角度來看,大數(shù)據(jù)成為繼實(shí)驗(yàn)、理論、模擬之后用于科學(xué)研究的“第四范式”(此處的“范式”指的是從事某一科學(xué)的科學(xué)家群體所共同遵從的世界觀和行為方式)。
三是商業(yè)視角:從商業(yè)應(yīng)用的角度來看,大數(shù)據(jù)能夠帶來利潤(rùn)。一般而言,只要找到一個(gè)合適的應(yīng)用場(chǎng)景,能夠?yàn)檫@個(gè)應(yīng)用場(chǎng)景找到一個(gè)合適的解決方案,知道數(shù)據(jù)的來源并且能夠獲取,而且有技術(shù)支撐(研發(fā)能力),更重要的是能夠找到融資支持(經(jīng)過可行性分析、盈虧平衡分析等之后),就有可能最終成功應(yīng)用并獲得收益。這在彰顯大數(shù)據(jù)商業(yè)價(jià)值的同時(shí),也會(huì)促使同行去挖掘更多的大數(shù)據(jù)價(jià)值。
更進(jìn)一步說,大數(shù)據(jù)的價(jià)值實(shí)現(xiàn),涉及數(shù)據(jù)、技術(shù)與應(yīng)用的協(xié)同,具有典型的多學(xué)科交叉與跨界整合特征,因此就總體而言,大數(shù)據(jù)價(jià)值的實(shí)現(xiàn)至少涉及如下四個(gè)維度(層面)。
1.算法(Algorithm):大數(shù)據(jù)價(jià)值的實(shí)現(xiàn)路徑涵蓋了數(shù)據(jù)采集與匯聚、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)處理與分析、應(yīng)用系統(tǒng)開發(fā)與運(yùn)維,每一個(gè)環(huán)節(jié)都需要依賴不同的算法進(jìn)行,如數(shù)據(jù)采集算法、數(shù)據(jù)匯聚算法、數(shù)據(jù)治理算法、數(shù)據(jù)處理和分析算法等。
2.商業(yè)應(yīng)用(Business):大數(shù)據(jù)應(yīng)用一般體現(xiàn)在描述性分析、預(yù)測(cè)性分析或者決策性分析等,任何一種應(yīng)用都是圍繞某個(gè)具體場(chǎng)景展開的,因此大數(shù)據(jù)價(jià)值得以實(shí)現(xiàn)的一個(gè)重要前提,是找到一個(gè)合適的應(yīng)用場(chǎng)景,該應(yīng)用場(chǎng)景既直擊需求痛點(diǎn)并有投資回報(bào)預(yù)期,又有數(shù)據(jù)積淀和IT建設(shè)基礎(chǔ)。大數(shù)據(jù)在這個(gè)場(chǎng)景的應(yīng)用,能夠進(jìn)一步內(nèi)生和富集更多數(shù)據(jù)并因而形成數(shù)據(jù)閉環(huán),就能進(jìn)一步體現(xiàn)和實(shí)現(xiàn)大數(shù)據(jù)價(jià)值。
3.算力(Computing Power):所謂算力,指的是設(shè)備的計(jì)算能力,顯然,對(duì)于大數(shù)據(jù)應(yīng)用而言,更精準(zhǔn)(復(fù)雜)的算法以及更高效的計(jì)算需求都需要強(qiáng)大的算力支撐,因此算力是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的基本保障。
4.數(shù)據(jù)(Data):數(shù)據(jù)是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的基礎(chǔ),因此必須首先解決諸如數(shù)據(jù)在哪以及如何從不同的數(shù)據(jù)源獲取數(shù)據(jù),并進(jìn)行有效的富集、匯聚和深入加工等問題,從而為應(yīng)用提供數(shù)據(jù)支撐或高級(jí)語(yǔ)義支撐。
2017年,中國(guó)政府發(fā)布了“新一代人工智能規(guī)劃”,明確提出了大數(shù)據(jù)智能這一概念,其內(nèi)涵在于形成從數(shù)據(jù)到知識(shí)、從知識(shí)到智能的能力,打穿數(shù)據(jù)孤島,形成鏈接多領(lǐng)域的知識(shí)中心,支撐新技術(shù)和新業(yè)態(tài)的跨界融合與創(chuàng)新服務(wù)。顯然,大數(shù)據(jù)智能進(jìn)一步明確了,在上述四個(gè)維度共同發(fā)力的基礎(chǔ)上實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的基本路徑。
此外,筆者還想提請(qǐng)讀者注意的是,數(shù)據(jù)的本質(zhì)是行為主體(例如人)在進(jìn)行各類活動(dòng)(生活、工作、娛樂)時(shí)的行為、偏好等痕跡被業(yè)務(wù)系統(tǒng)(或互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等)地記錄在各個(gè)服務(wù)器里。因此,數(shù)據(jù)本身暗含著行為主體的隱私,所以圍繞大數(shù)據(jù)價(jià)值的實(shí)現(xiàn),數(shù)據(jù)隱私與安全保護(hù)是一個(gè)不可回避的重要內(nèi)容。這一點(diǎn)在《大數(shù)據(jù)》一書中也有專章介紹。2018年5月25日,歐盟《通用數(shù)據(jù)保護(hù)條例》(簡(jiǎn)稱GDPR)正式實(shí)施,在全球范圍內(nèi)掀起了數(shù)據(jù)保護(hù)改革的浪潮。在數(shù)據(jù)全球化深入發(fā)展的當(dāng)下,如何在后GDPR時(shí)代建立起一套數(shù)據(jù)保護(hù)法律體系,既符合國(guó)際最佳立法實(shí)踐又符合本國(guó)國(guó)情,既能為個(gè)人權(quán)益、數(shù)字經(jīng)濟(jì)、國(guó)家安全等系列利益保駕護(hù)航,又能在國(guó)際數(shù)據(jù)規(guī)則制定中占有話語(yǔ)權(quán),也成為各國(guó)政策制定者普遍關(guān)注的領(lǐng)域。
通讀《大數(shù)據(jù)》一書,縈繞于筆者心中的問題是:大數(shù)據(jù)會(huì)讓我們的生活變得更好嗎?如何才能讓我們的生活變得更好呢?在閱讀本書的過程中,筆者能夠感覺到作者在成文時(shí)力求做到“在不犧牲準(zhǔn)確性的前提下,盡可能寫得簡(jiǎn)單”,同時(shí)又能做到周全和清晰。因此,本書尤其適合對(duì)大數(shù)據(jù)有興趣的初學(xué)者,其真正的意義在于:為你打開了一扇門,并言明了很多方向。
于南京九鄉(xiāng)河
2020年7月12日
道恩??E.霍爾姆斯,現(xiàn)任教于美國(guó)加利福尼亞大學(xué)圣巴巴拉分校應(yīng)用概率與統(tǒng)計(jì)學(xué)系,主要研究領(lǐng)域?yàn)樨惾~斯網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等;魻柲匪故请姎怆娮庸こ處煂W(xué)會(huì)高級(jí)會(huì)員、《基于知識(shí)的智能信息系統(tǒng)國(guó)際期刊》副主編,并與他人合編了三卷本著作《數(shù)據(jù)挖掘:基礎(chǔ)和智能范例》(2014)。
前 言
致 謝
第一章 數(shù)據(jù)爆炸
第二章 大數(shù)據(jù)為什么不一般?
第三章 大數(shù)據(jù)存儲(chǔ)
第四章 大數(shù)據(jù)分析法
第五章 大數(shù)據(jù)與醫(yī)學(xué)
第六章 大數(shù)據(jù),大商務(wù)
第七章 大數(shù)據(jù)安全與斯諾登事件
第八章 大數(shù)據(jù)與社會(huì)
字節(jié)大小量表
小寫英文字母ASCII碼表
索 引
英文原文