企業(yè)級(jí)數(shù)據(jù)與AI項(xiàng)目成功之道
定 價(jià):89 元
- 作者:[美]尼爾·菲什曼(Neal Fishman),[美]科爾·斯特萊克(Cole Stryker)
- 出版時(shí)間:2021/11/1
- ISBN:9787111684763
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:F272.7
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
只有在可以一致地提供預(yù)測性的業(yè)務(wù)見解并在整個(gè)組織范圍內(nèi)擴(kuò)展時(shí),數(shù)據(jù)分析和AI才能產(chǎn)生價(jià)值。這也是眾多企業(yè)所面臨的巨大挑戰(zhàn)。本書概述了有效且實(shí)用的組織、管理和評(píng)估數(shù)據(jù)的方法,因此有助于建立信息體系結(jié)構(gòu)以更好地推動(dòng)AI和數(shù)據(jù)科學(xué)的發(fā)展。本書主要包括以下內(nèi)容:簡化數(shù)據(jù)管理,使數(shù)據(jù)隨時(shí)隨地可用;縮短實(shí)現(xiàn)AI用例的價(jià)值實(shí)現(xiàn)時(shí)間;使整個(gè)企業(yè)都可以訪問AI和數(shù)據(jù)洞察力;動(dòng)態(tài)、實(shí)時(shí)地?cái)U(kuò)展復(fù)雜的AI場景;開發(fā)可帶來可預(yù)測的、可重復(fù)的價(jià)值的信息體系結(jié)構(gòu)。本書可以使包括架構(gòu)師、開發(fā)人員、產(chǎn)品所有者和業(yè)務(wù)主管在內(nèi)的各種角色受益。
“我想做的是交付結(jié)果!
Lou Gerstner
Business Week
為何你需要此書
“19世紀(jì)末,誰也不會(huì)相信地球正受到智慧生命的密切注視……”
1898年,H. G. Wells出版的《世界大戰(zhàn)》(The War of the Worlds,Harper & Brothers)以此開場。在20世紀(jì)末,這樣的懷疑也同樣盛行。但與19世紀(jì)以來的虛構(gòu)的注視者不同,20世紀(jì)晚期的注視者是真實(shí)存在的,而這些注視者就是具有開拓性的數(shù)字化公司。在《世界大戰(zhàn)》中,單細(xì)胞細(xì)菌被證明是兼具進(jìn)攻性和防御性的決定性武器。如今,這一武器便是數(shù)據(jù)。當(dāng)數(shù)據(jù)被錯(cuò)誤使用時(shí),企業(yè)將會(huì)面臨突然崩潰的局面;當(dāng)數(shù)據(jù)被正確使用時(shí),企業(yè)則會(huì)茁壯成長。
自象形文字和字母出現(xiàn)以來,數(shù)據(jù)已然開始發(fā)揮其作用。商業(yè)智能(Business Intelligence,BI)一詞的出現(xiàn),可以追溯至Richard Millar Devens 1865年出版的Cyclopaedia of Commercial and Business Anecdotes一書。盡管如此,直至制表機(jī)器公司(Tabulating Machine Company,IBM前身)創(chuàng)始人Herman Hollerith發(fā)明了打孔卡片,數(shù)據(jù)的大規(guī)模采集才得以實(shí)現(xiàn)。Hollerith初是為1890年美國政府人口普查而發(fā)明的打孔制表技術(shù)。1937年,美國政府與IBM簽署協(xié)議,運(yùn)用其打孔卡讀卡機(jī),為涉及2600萬個(gè)社會(huì)保障號(hào)碼的大規(guī)模簿記項(xiàng)目提供服務(wù)和支持。
1965年,美國政府建立了個(gè)數(shù)據(jù)中心,以存儲(chǔ)其7.42億張納稅申報(bào)單和1.75億套錄有指紋信息的計(jì)算機(jī)磁帶。隨著互聯(lián)網(wǎng)以及后來的移動(dòng)設(shè)備和物聯(lián)網(wǎng)的出現(xiàn),私有企業(yè)能夠基于日益增加的與消費(fèi)者共享的觸點(diǎn)數(shù),建立大量的消費(fèi)者數(shù)據(jù)存儲(chǔ),從而使大規(guī)模數(shù)據(jù)使用真正得以實(shí)現(xiàn)。平均而言,每個(gè)人每秒創(chuàng)建的數(shù)據(jù)量超過1.7MB,這樣的信息量大致相當(dāng)于154萬億張打孔卡片。通過將數(shù)據(jù)量與數(shù)據(jù)有效處理能力相結(jié)合,數(shù)據(jù)并不僅僅是被簡單記錄和保存,而是得以大規(guī)模使用。
顯然,我們正處于大數(shù)據(jù)時(shí)代。企業(yè)正在爭先恐后地整合各種能完成高級(jí)分析的能力,如人工智能和機(jī)器學(xué)習(xí),從而限度地利用其自身的數(shù)據(jù)。如何通過具有前瞻性的預(yù)判來改善市場的商業(yè)表現(xiàn),已然成為強(qiáng)制性需求。諸如數(shù)據(jù)湖(Data Lake)之類的數(shù)據(jù)管理概念也被提出,以指導(dǎo)企業(yè)進(jìn)行數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理。在許多方面,數(shù)據(jù)湖與更早的企業(yè)數(shù)據(jù)倉庫(Enterprise Data Warehouse,EDW)形成了鮮明對(duì)比。通常而言,企業(yè)數(shù)據(jù)倉庫僅接受已被視為有用的數(shù)據(jù),且其內(nèi)容的組織方式高度系統(tǒng)化。
在被誤用的情況下,一個(gè)數(shù)據(jù)湖只不過是非結(jié)構(gòu)化和未處理的海量數(shù)據(jù)的存儲(chǔ)地,許多這樣的數(shù)據(jù)永遠(yuǎn)都不會(huì)被使用。然而,通過高級(jí)分析和機(jī)器學(xué)習(xí)模型,數(shù)據(jù)湖可以有效地得到利用。
但是,數(shù)據(jù)倉庫和數(shù)據(jù)湖能否真正實(shí)現(xiàn)企業(yè)改善商業(yè)表現(xiàn)的目的?更簡潔地說,企業(yè)是否已經(jīng)意識(shí)到存儲(chǔ)數(shù)據(jù)之地在商業(yè)方面的價(jià)值?
全球信息技術(shù)研究和咨詢公司—高德納咨詢公司(Gartner Group)對(duì)此進(jìn)行了引人深思的分析。據(jù)估計(jì),超過一半的企業(yè)數(shù)據(jù)倉庫嘗試都是失敗的,而新的數(shù)據(jù)湖的情況甚至更糟。高德納的分析師曾預(yù)測,數(shù)據(jù)湖的失敗率可能高達(dá)60%。然而,現(xiàn)在高德納認(rèn)為這個(gè)數(shù)字過于保守,實(shí)際失敗率可能接近85%。
為什么諸如企業(yè)數(shù)據(jù)倉庫和數(shù)據(jù)湖這樣的方案的失敗率如此驚人?簡單來說,開發(fā)適當(dāng)?shù)男畔⒓軜?gòu)并非易事。
與企業(yè)數(shù)據(jù)倉庫的失敗原因相同,數(shù)據(jù)科學(xué)家采用的許多方法也未能意識(shí)到如下幾點(diǎn):
企業(yè)性質(zhì)。
企業(yè)的業(yè)務(wù)運(yùn)營。
變化的隨機(jī)性和潛在的巨大性。
數(shù)據(jù)質(zhì)量的重要性。
在模式設(shè)計(jì)和信息架構(gòu)中應(yīng)用不同技術(shù)的方式,這可能會(huì)影響組織應(yīng)對(duì)變化的準(zhǔn)備。
分析表明,數(shù)據(jù)湖和大數(shù)據(jù)計(jì)劃失敗率較高的原因并不在于技術(shù)本身,而是在于技術(shù)人員應(yīng)用技術(shù)的方式。
在我們與企業(yè)客戶的對(duì)話中,這些方面很快就變得不言而喻。在討論數(shù)據(jù)倉庫和數(shù)據(jù)湖時(shí),我們經(jīng)常面臨諸多問題,例如:“對(duì)于每一種方式而言,我們都有很多選擇,選擇哪一個(gè)?”經(jīng)常會(huì)出現(xiàn)組織中的一個(gè)部門需要數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲(chǔ),但是其需求無法通過以前的數(shù)據(jù)存儲(chǔ)方式得到滿足。因此,該部門不再嘗試重塑或更新已有的數(shù)據(jù)倉庫或者數(shù)據(jù)湖,而是創(chuàng)建一個(gè)全新的數(shù)據(jù)存儲(chǔ)區(qū)域。這樣做的結(jié)果往往是一個(gè)多種數(shù)據(jù)存儲(chǔ)解決方案的大雜燴,彼此之間不能有效結(jié)合,從而喪失數(shù)據(jù)分析的機(jī)會(huì)。
顯然,新技術(shù)可以提供許多實(shí)實(shí)在在的好處,但是除非對(duì)這些技術(shù)進(jìn)行嚴(yán)謹(jǐn)?shù)牟渴鸷凸芾,否則,這些好處無法實(shí)現(xiàn)。與傳統(tǒng)建筑架構(gòu)的設(shè)計(jì)不同,信息架構(gòu)的設(shè)計(jì)無法做到一勞永逸。
雖然組織可以控制如何獲取數(shù)據(jù),但是不能控制所需要的數(shù)據(jù)如何隨時(shí)間變化。組織往往是脆弱的,因?yàn)楫?dāng)環(huán)境發(fā)生變化時(shí),信息架構(gòu)可能會(huì)崩潰。只有靈活的、自適應(yīng)的信息架構(gòu)才能適應(yīng)新的環(huán)境。針對(duì)動(dòng)態(tài)目標(biāo),設(shè)計(jì)和部署解決方案是困難的,但這個(gè)挑戰(zhàn)并非不可克服。
很多信息技術(shù)專業(yè)人士都認(rèn)為“垃圾輸入等于垃圾輸出”這個(gè)草率斷言已經(jīng)過時(shí)了。實(shí)際上,數(shù)十年來,垃圾數(shù)據(jù)一直給分析和決策過程帶來困擾。管理不善的數(shù)據(jù)和缺乏一致性的表示對(duì)每一個(gè)人工智能項(xiàng)目來說依然是危險(xiǎn)信號(hào)。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)對(duì)數(shù)據(jù)質(zhì)量的要求尤其高。就像硬幣的兩面,低質(zhì)量數(shù)據(jù)可能帶來兩種具有破壞性的影響。一方面,與歷史數(shù)據(jù)相關(guān)的低質(zhì)量數(shù)據(jù)會(huì)使預(yù)測模型的訓(xùn)練失真;另一方面,新數(shù)據(jù)會(huì)使模型失真,對(duì)決策制定產(chǎn)生負(fù)面影響。
作為一種可共享資源,當(dāng)數(shù)據(jù)質(zhì)量不佳時(shí),數(shù)據(jù)通過服務(wù)層像病毒一樣暴露在整個(gè)組織中,從而影響每一個(gè)接觸此數(shù)據(jù)的人。因此,人工智能的信息架構(gòu)必須能減少與數(shù)據(jù)質(zhì)量相關(guān)的傳統(tǒng)問題,促進(jìn)數(shù)據(jù)流動(dòng),并在必要的時(shí)候?qū)崿F(xiàn)數(shù)據(jù)隔離。
本書的目的是讓你了解企業(yè)如何構(gòu)建信息架構(gòu),從而為成功的、可持續(xù)的、可擴(kuò)展的人工智能部署鋪平道路。本書包括一個(gè)結(jié)構(gòu)化框架和建議,既兼顧實(shí)用性又具有可操作性,可以幫助企業(yè)完成信息架構(gòu),進(jìn)而從人工智能技術(shù)中獲益。
本書主要內(nèi)容
我們將從第1章開始,對(duì)人工智能階梯進(jìn)行討論。人工智能階梯是IBM開發(fā)的一個(gè)說明性工具,用來演示一個(gè)組織要持續(xù)從人工智能技術(shù)中獲益所必須攀登的“步驟”或“梯級(jí)”。由此出發(fā),第2章和第3章涵蓋了數(shù)據(jù)科學(xué)家和信息技術(shù)領(lǐng)導(dǎo)者在攀登人工智能階梯的過程中必須注意的一系列因素。
在第4章和第5章中,我們將探索關(guān)于數(shù)據(jù)倉庫及其如何讓位于數(shù)據(jù)湖的歷史,并討論如何根據(jù)地形學(xué)和拓?fù)鋵W(xué)來設(shè)計(jì)數(shù)據(jù)湖。這些討論將深入數(shù)據(jù)的接收、治理、存儲(chǔ)、處理、訪問、管理和監(jiān)測等方面。
在第6章中,我們將討論開發(fā)運(yùn)營(DevOps)、數(shù)據(jù)運(yùn)營(DataOps)、機(jī)器學(xué)習(xí)運(yùn)營(MLOps)如何使組織得以更好地實(shí)時(shí)使用數(shù)據(jù)。在第7章中,我們將深入探討數(shù)據(jù)治理和集成數(shù)據(jù)管理的基本要素。為了便于數(shù)據(jù)科學(xué)家確定數(shù)據(jù)的價(jià)值,我們將討論數(shù)據(jù)價(jià)值鏈和數(shù)據(jù)可訪問性、可發(fā)現(xiàn)性的需求。
由于組織內(nèi)部的不同角色需要以不同的方式與數(shù)據(jù)進(jìn)行交互,第8章將介紹不同的數(shù)據(jù)訪問方式,還將進(jìn)一步討論數(shù)據(jù)價(jià)值評(píng)估,并解釋如何使用統(tǒng)計(jì)學(xué)協(xié)助實(shí)現(xiàn)數(shù)據(jù)價(jià)值排序。
在第9章中,我們將討論信息架構(gòu)中可能出現(xiàn)的問題,以及整個(gè)組織的數(shù)據(jù)素養(yǎng)對(duì)于規(guī)避此類問題的重要性。
后,在第10章中,我們將對(duì)開發(fā)人工智能信息架構(gòu)的相關(guān)情況進(jìn)行概述。第10章還提供了將上述理論背景應(yīng)用于現(xiàn)實(shí)世界的信息架構(gòu)開發(fā)的可行步驟。
尼爾·菲什曼(Neal Fishman)是IBM的杰出工程師,并且是IBM全球業(yè)務(wù)服務(wù)組織內(nèi)基于數(shù)據(jù)的病理學(xué)的首席技術(shù)官。尼爾也是Open Group認(rèn)證的杰出IT架構(gòu)師。
科爾·斯特萊克(Cole Stryker)是一名常駐洛杉磯的作家和記者。他是Epic Win for Anonymous和Hacking the Future的作者。
題記
本書贊譽(yù)
序言
前言
致謝
關(guān)于作者
第1章 攀登人工智能階梯1
1.1 人工智能的數(shù)據(jù)準(zhǔn)備2
1.2 重點(diǎn)技術(shù)領(lǐng)域2
1.3 一步一個(gè)腳印地攀登階梯3
1.4 不斷適應(yīng)以保持組織的相關(guān)性6
1.5 基于數(shù)據(jù)的推理在現(xiàn)代業(yè)務(wù)中至關(guān)重要8
1.6 朝著以人工智能為中心的組織邁進(jìn)11
1.7 本章小結(jié)12
第2章 框架部分I:使用人工智能的注意事項(xiàng)14
2.1 數(shù)據(jù)驅(qū)動(dòng)決策制定15
2.1.1 通過詢問來獲得洞見15
2.1.2 信任矩陣16
2.1.3 衡量標(biāo)準(zhǔn)和人類洞見的重要性18
2.2 使數(shù)據(jù)與數(shù)據(jù)科學(xué)民主化18
2.3 是的,先決條件:組織數(shù)據(jù)必須有先見之明20
2.4 促進(jìn)變革之風(fēng):有組織的數(shù)據(jù)如何縮短反應(yīng)時(shí)間23
2.5 質(zhì)疑一切24
2.6 本章小結(jié)26
第3章 框架部分II:使用數(shù)據(jù)和人工智能的注意事項(xiàng)27
3.1 個(gè)性化每個(gè)用戶的數(shù)據(jù)體驗(yàn)28
3.2 上下文的影響:選擇正確的數(shù)據(jù)顯示方式29
3.3 民族志研究:通過專業(yè)數(shù)據(jù)增進(jìn)理解32
3.4 數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量33
3.4.1 分解數(shù)據(jù)的價(jià)值34
3.4.2 通過數(shù)據(jù)治理提供結(jié)構(gòu)34
3.4.3 為訓(xùn)練進(jìn)行數(shù)據(jù)策管35
3.4.4 創(chuàng)造價(jià)值的其他注意事項(xiàng)35
3.5 本體論:封裝知識(shí)的手段36
3.6 人工智能成果的公平、信任和透明度38
3.7 可訪問的、準(zhǔn)確的、經(jīng)過策管的和經(jīng)過組織的數(shù)據(jù)41
3.8 本章小結(jié)42
第4章 分析回顧:不只是個(gè)錘子44
4.1 曾經(jīng)的情況:回顧企業(yè)數(shù)據(jù)倉庫44
4.2 傳統(tǒng)數(shù)據(jù)倉庫的缺點(diǎn)49
4.3 范式轉(zhuǎn)變52
4.4 現(xiàn)代分析環(huán)境:數(shù)據(jù)湖53
4.4.1 兩者對(duì)比55
4.4.2 本地?cái)?shù)據(jù)56
4.4.3 差異屬性56
4.5 數(shù)據(jù)湖的要素58
4.6 新常態(tài):大數(shù)據(jù)即普通數(shù)據(jù)60
4.6.1 從單一數(shù)據(jù)模型的剛性中解放出來60
4.6.2 流數(shù)據(jù)61
4.6.3 適合任務(wù)的工具61
4.6.4 易訪問性61
4.6.5 降低成本61
4.6.6 可擴(kuò)展性62
4.6.7 人工智能的數(shù)據(jù)管理和數(shù)據(jù)治理62
4.7 Schema-On-Read與Schema-On-Write63
4.8 本章小結(jié)65
第5章 分析前瞻:不是所有事物都是釘子67
5.1 組織的需求67
5.1.1 暫存區(qū)域69
5.1.2 原始區(qū)域70
5.1.3 發(fā)現(xiàn)與探索區(qū)域71
5.1.4 對(duì)齊區(qū)域71
5.1.5 協(xié)調(diào)區(qū)域76
5.1.6 策管區(qū)域77
5.2 數(shù)據(jù)拓?fù)?8
5.2.1 區(qū)域地圖80
5.2.2 數(shù)據(jù)管道81
5.2.3 數(shù)據(jù)地形81
5.3 擴(kuò)展、添加、移動(dòng)和刪除區(qū)域83
5.4 啟用區(qū)域84
5.4.1 攝入84
5.4.2 數(shù)據(jù)治理86
5.4.3 數(shù)據(jù)存儲(chǔ)和保留87
5.4.4 數(shù)據(jù)處理89
5.4.5 數(shù)據(jù)訪問90
5.4.6 管理和監(jiān)控91
5.4.7 元數(shù)據(jù)91
5.5 本章小結(jié)92
第6章 人工智能階梯的運(yùn)營準(zhǔn)則93
6.1 時(shí)光流逝94
6.2 創(chuàng)建98
6.2.1 穩(wěn)定性99
6.2.2 障礙99
6.2.3 復(fù)雜性99
6.3 執(zhí)行100
6.3.1 攝入101
6.3.2 可見性102
6.3.3 合規(guī)性102
6.4 運(yùn)行102
6.4.1 質(zhì)量103
6.4.2 依賴104
6.4.3 可復(fù)用性104
6.5 xOps三重奏:DevOps/MLOps、DataOps和AIOps105
6.5.1 DevOps/MLOps105
6.5.2 DataOps107
6.5.3 AIOps109
6.6 本章小結(jié)111
第7章 化運(yùn)用數(shù)據(jù):以價(jià)值為導(dǎo)向112
7.1 邁向價(jià)值鏈113
7.1.1 通過關(guān)聯(lián)鏈接116
7.1.2 啟用操作117
7.1.3 擴(kuò)大行動(dòng)手段118
7.2 策管119
7.3 數(shù)據(jù)治理121
7.4 集成數(shù)據(jù)管理123
7.4.1 載入125
7.4.2 組織125
7.4.3 編目126
7.4.4 元數(shù)據(jù)127
7.4.5 準(zhǔn)備128
7.4.6 預(yù)配129
7.4.7 多租戶129
7.5 本章小結(jié)132
第8章 通過統(tǒng)計(jì)分析評(píng)估數(shù)據(jù)并啟用有意義的訪問133
8.1 派生價(jià)值:將數(shù)據(jù)當(dāng)作資產(chǎn)進(jìn)行管理133
8.2 數(shù)據(jù)可訪問性:并非所有用戶都是平等的139
8.3 向數(shù)據(jù)提供自助服務(wù)140
8.4 訪問:添加控件的重要性141
8.5 為了數(shù)據(jù)治理,使用自底向上的方法對(duì)數(shù)據(jù)集進(jìn)行排序142
8.6 各行業(yè)如何使用數(shù)據(jù)和人工智能143
8.7 受益于統(tǒng)計(jì)數(shù)字144
8.8 本章小結(jié)151
第9章 長期構(gòu)建152
9.1 改變習(xí)慣的需要:避免硬編碼152
9.1.1 過載153
9.1.2 鎖定154
9.1.3 所有權(quán)和分解156
9.1.4 避免變化的設(shè)計(jì)156
9.2 通過人工智能擴(kuò)展數(shù)據(jù)的價(jià)值157
9.3 混合持久化159
9.4 受益于數(shù)據(jù)素養(yǎng)163
9.4.1 理解主題165
9.4.2 技能集165
9.4.3 全部都是元數(shù)據(jù)167
9.4.4 正確的數(shù)據(jù),在正確的上下文
中,使用正確的接口168
9.5 本章小結(jié)170
第10章 終章:人工智能的信息架構(gòu)171
10.1 人工智能開發(fā)工作172
10.2 基本要素:基于云的計(jì)算、數(shù)據(jù)和分析175
10.2.1 交集:計(jì)算容量和存儲(chǔ)容量180
10.2.2 分析強(qiáng)度181
10.2.3 跨要素的互操作性183
10.2.4 數(shù)據(jù)管道飛行路徑:飛行前、飛行中、飛行后186
10.2.5 數(shù)據(jù)水坑、數(shù)據(jù)池和數(shù)據(jù)