本書把數(shù)據(jù)視為基礎(chǔ)資源,根據(jù)軟件工程的思想,總結(jié)了數(shù)據(jù)利用的歷程,講述了數(shù)據(jù)倉庫的基礎(chǔ)知識和工具,研究了數(shù)據(jù)挖掘的任務(wù)及其挑戰(zhàn),給出了經(jīng)典的數(shù)據(jù)挖掘算法,介紹了數(shù)據(jù)挖掘的產(chǎn)品,剖析了稅務(wù)數(shù)據(jù)挖掘的案例,探索了大數(shù)據(jù)的管理和應(yīng)用問題。
全書仰望前景,深入淺出,強(qiáng)調(diào)基礎(chǔ),注重應(yīng)用,是軟件工程及相關(guān)專業(yè)的高年級本科生、研究生的理想教材,亦可作為相關(guān)領(lǐng)域的參考用書。
(1)利用軟件工程組織內(nèi)容! 。2)講述了數(shù)據(jù)倉庫的基礎(chǔ)知識和工具 。3)研究了數(shù)據(jù)挖掘的任務(wù)及其挑戰(zhàn) 。4)給出了經(jīng)典的數(shù)據(jù)挖掘算法 。5)介紹了數(shù)據(jù)挖掘的產(chǎn)品 。6)剖析了稅務(wù)數(shù)據(jù)挖掘的案例 。7)探索了大數(shù)據(jù)的管理和應(yīng)用問題
王樹良,男,1975年生,工學(xué)博士,雙博士后,武漢大學(xué)教授,博士生導(dǎo)師,美國Carnegie Mellon University的 iCarnegie 教師,現(xiàn)任北京理工大學(xué)軟件學(xué)院副院長、副書記。全國百篇優(yōu)秀博士學(xué)位論文、國家測繪科技進(jìn)步一等獎(jiǎng)、湖北省自然科學(xué)優(yōu)秀學(xué)術(shù)論文二等獎(jiǎng)、“花旗集團(tuán)金融信息科技教育基金”優(yōu)秀獎(jiǎng)教金、第七屆“武漢大學(xué)杰出青年”等榮譽(yù)獲得者。新西蘭惠靈頓理工大學(xué)、澳大利亞昆士蘭大學(xué)、香港理工大學(xué)等大學(xué)訪問學(xué)者。擔(dān)任International Journal of System Science、 International Journal of Data Mining and Data Warehousing、Lecture Notes in Artificial Intelligence等學(xué)術(shù)刊物的Guest Editor,Data Mining and Knowledge Discovery、International Journal of General System、Information Science、International Journal of Geographical Information Science、ISPRS Journal of Photogrammetric and Remote Sensing、PE&RS等學(xué)術(shù)期刊審稿人,國家863、國家自然科學(xué)基金等項(xiàng)目評審人,International Conference on Advanced Data Mining and Applications學(xué)術(shù)委員會合作主席,International Symposium on Multi-spectrum Image Processing and Pattern Recognition、International Conference on Supply Chain Management and Information Systems等學(xué)術(shù)委員會委員。主要研究方向包括空間數(shù)據(jù)挖掘、軟件工程等,發(fā)表學(xué)術(shù)論文多篇,其中大部分為SCI、EI、ISTP所收錄,在國內(nèi)外出版專著6部,其中Springer出版2部、SPIE出版1部。 主要教學(xué)經(jīng)歷 。1)本科生:數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概論 (2)碩士研究生:高級數(shù)據(jù)庫 數(shù)據(jù)倉庫與商務(wù)智能 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘(3)博士研究生:空間數(shù)據(jù)挖掘
第1章 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘
概述... 1
1.1 概述... 1
1.1.1 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的目標(biāo)... 1
1.1.2 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的發(fā)展歷程... 2
1.2 數(shù)據(jù)中心... 4
1.2.1 關(guān)系型數(shù)據(jù)中心... 4
1.2.2 非關(guān)系型數(shù)據(jù)中心... 4
1.2.3 混合型數(shù)據(jù)中心(大數(shù)據(jù)平臺)... 6
1.3 混合型數(shù)據(jù)中心參考架構(gòu)... 7
1.3.1 基礎(chǔ)設(shè)施層... 8
1.3.2 數(shù)據(jù)源層... 8
1.3.3 交換服務(wù)體系... 8
1.3.4 數(shù)據(jù)存儲區(qū)... 9
1.3.5 基礎(chǔ)服務(wù)層... 10
1.3.6 應(yīng)用層... 12
1.3.7 用戶終端層... 12
1.3.8 數(shù)據(jù)治理... 12
1.3.9 元數(shù)據(jù)管理... 12
1.3.10 IT安全運(yùn)維管理... 13
1.3.11 IT綜合監(jiān)控... 14
1.3.12 企業(yè)資產(chǎn)管理... 14
思考題... 14
第2章 數(shù)據(jù)... 15
2.1 數(shù)據(jù)的概念... 15
2.2 數(shù)據(jù)的內(nèi)容... 15
2.2.1 實(shí)時(shí)數(shù)據(jù)與歷史數(shù)據(jù)... 15
2.2.2 事務(wù)數(shù)據(jù)與時(shí)態(tài)數(shù)據(jù)... 16
2.2.3 圖形數(shù)據(jù)與圖像數(shù)據(jù)... 16
2.2.4 主題數(shù)據(jù)與全局?jǐn)?shù)據(jù)... 17
2.2.5 空間數(shù)據(jù)... 17
2.2.6 序列數(shù)據(jù)和數(shù)據(jù)流... 18
2.2.7 元數(shù)據(jù)與數(shù)據(jù)字典... 19
2.3 數(shù)據(jù)屬性及數(shù)據(jù)集... 20
2.4 數(shù)據(jù)特征的統(tǒng)計(jì)描述... 21
2.4.1 集中趨勢... 21
2.4.2 離散程度... 23
2.4.3 數(shù)據(jù)的分布形狀... 24
2.5 數(shù)據(jù)的可視化... 24
2.6 數(shù)據(jù)相似性與相異性的度量... 27
2.7 數(shù)據(jù)質(zhì)量... 30
2.8 數(shù)據(jù)預(yù)處理... 31
2.8.1 被污染的數(shù)據(jù)... 31
2.8.2 數(shù)據(jù)清理... 33
2.8.3 數(shù)據(jù)集成... 34
2.8.4 數(shù)據(jù)變換... 35
2.8.5 數(shù)據(jù)規(guī)約... 36
思考題... 36
第3章 數(shù)據(jù)倉庫與數(shù)據(jù)ETL
基礎(chǔ)... 37
3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫... 37
3.2 數(shù)據(jù)倉庫的結(jié)構(gòu)... 38
3.2.1 兩層體系結(jié)構(gòu)... 39
3.2.2 三層體系結(jié)構(gòu)... 39
3.2.3 組成元素... 40
3.3 數(shù)據(jù)倉庫的數(shù)據(jù)模型... 41
3.3.1 概念模型... 41
3.3.2 邏輯模型... 41
3.3.3 物理模型... 44
3.4 ETL.. 44
3.4.1 數(shù)據(jù)抽取... 45
3.4.2 數(shù)據(jù)轉(zhuǎn)換... 46
3.4.3 數(shù)據(jù)加載... 46
3.5 OLAP. 47
3.5.1 維... 47
3.5.2 OLAP與OLTP. 47
3.5.3 OLAP的基本操作... 48
3.6 OLAP的數(shù)據(jù)模型... 49
3.6.1 ROLAP. 49
3.6.2 MOLAP. 50
3.6.3 HOLAP. 50
思考題... 51
第4章 數(shù)據(jù)倉庫和ETL工具... 52
4.1 IBM DB2 V10. 52
4.1.1 自適應(yīng)壓縮... 52
4.1.2 多溫度存儲... 53
4.1.3 時(shí)間旅行查詢... 54
4.1.4 DB2兼容性功能... 58
4.1.5 工作負(fù)載管理... 58
4.1.6 PureXML.. 60
4.1.7 當(dāng)前已落實(shí)... 61
4.1.8 DB2 PureScale Feature. 61
4.1.9 分區(qū)特性... 63
4.1.10 并行技術(shù)... 65
4.1.11 SQW... 65
4.1.12 Cubing Services. 65
4.1.13 列式存儲及壓縮技術(shù)... 66
4.2 InfoSphere Datastage. 68
4.2.1 基于Information Server
的架構(gòu)... 69
4.2.2 企業(yè)級實(shí)施和管理... 72
4.2.3 高擴(kuò)展的體系架構(gòu)... 75
4.2.4 具備線性擴(kuò)充能力... 77
4.2.5 ETL元數(shù)據(jù)管理... 78
4.3 InfoSphere QualityStage. 78
思考題... 80
第5章 數(shù)據(jù)挖掘基礎(chǔ)... 81
5.1 數(shù)據(jù)挖掘的起源... 81
5.2 數(shù)據(jù)挖掘的定義... 82
5.3 數(shù)據(jù)挖掘的任務(wù)... 83
5.3.1 分類... 83
5.3.2 回歸分析... 85
5.3.3 相關(guān)分析... 85
5.3.4 聚類分析... 85
5.3.5 關(guān)聯(lián)規(guī)則... 87
5.3.6 異常檢測... 88
5.4 數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程... 88
5.4.1 商業(yè)理解... 89
5.4.2 數(shù)據(jù)理解... 90
5.4.3 數(shù)據(jù)準(zhǔn)備... 90
5.4.4 建立模型... 90
5.4.5 模型評估... 89
5.4.6 發(fā)布... 91
5.5 數(shù)據(jù)挖掘的十大挑戰(zhàn)性問題... 91
5.5.1 數(shù)據(jù)挖掘統(tǒng)一理論的探索... 91
5.5.2 高維數(shù)據(jù)和高速數(shù)據(jù)流的研究與應(yīng)用... 92
5.5.3 時(shí)序數(shù)據(jù)的挖掘與降噪... 92
5.5.4 從復(fù)雜數(shù)據(jù)中尋找復(fù)雜知識... 92
5.5.5 網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)挖掘... 92
5.5.6 分布式數(shù)據(jù)挖掘... 93
5.5.7 生物醫(yī)學(xué)和環(huán)境科學(xué)數(shù)據(jù)挖掘... 93
5.5.8 數(shù)據(jù)挖掘過程自動化與可視化... 93
5.5.9 信息安全與隱私保護(hù)... 93
5.5.10 動態(tài)、不平衡及成本敏感數(shù)據(jù)的挖掘 93
思考題... 94
第6章 數(shù)據(jù)挖掘算法... 95
6.1 算法評估概述... 95
6.1.1 分類算法及評估指標(biāo)... 95
6.1.2 聚類算法及其評價(jià)指標(biāo)... 97
6.2 C4.5. 99
6.2.1 信息論基礎(chǔ)知識... 100
6.2.2 ID3算法... 102
6.2.3 C4.5算法... 104
6.2.4 C4.5算法的實(shí)現(xiàn)... 105
6.2.5 C4.5的軟件實(shí)現(xiàn)... 107
6.3 CART算法... 109
6.3.1 算法介紹... 109
6.3.2 算法描述... 112
6.4 K-Means算法... 113
6.4.1 基礎(chǔ)知識... 113
6.4.2 算法描述... 114
6.4.3 算法的軟件實(shí)現(xiàn)... 115
6.5 SVM算法... 116
6.5.1 線性可分SVM... 116
6.5.2 線性不可分SVM... 118
6.5.3 參數(shù)設(shè)置... 121
6.5.4 SVM算法的軟件實(shí)現(xiàn)... 123
6.6 Apriori算法... 125
6.6.1 基本概念... 125
6.6.2 Apriori算法... 126
6.6.3 Apriori算法示例... 129
6.6.4 Apriori算法的軟件實(shí)現(xiàn)... 131
6.7 EM算法... 131
6.7.1 算法描述
6.7.2 基于EM的混合高斯聚類... 133
6.7.3 算法的軟件實(shí)現(xiàn)... 134
6.8 PageRank. 135
6.8.1 PageRank算法發(fā)展背景... 135
6.8.2 PageRank算法描述... 135
6.8.3 PageRank算法發(fā)展... 138
6.9 Adaboost算法... 139
6.9.1 集成學(xué)習(xí)... 139
6.9.2 Adaboost算法描述... 140
6.9.3 Adaboost算法實(shí)驗(yàn)... 141
6.10 KNN算法... 142
6.10.1 KNN算法描述... 142
6.10.2 KNN算法的軟件實(shí)現(xiàn)... 144
6.11 Naive Bayes. 144
6.11.1 基礎(chǔ)知識... 145
6.11.2 算法描述... 145
6.11.3 NaiveBayes軟件實(shí)現(xiàn)... 147
思考題... 148
第7章 數(shù)據(jù)挖掘工具與產(chǎn)品... 149
7.1 數(shù)據(jù)挖掘工具概述... 149
7.1.1 發(fā)展過程... 149
7.1.2 基本類型... 149
7.1.3 開發(fā)者與使用者... 150
7.2 商業(yè)數(shù)據(jù)挖掘工具IBM
SPSS Modeler 151
7.2.1 產(chǎn)品概述... 151
7.2.2 可視化數(shù)據(jù)挖掘... 153
7.2.3 SPSS Modeler技術(shù)說明... 156
7.2.4 SPSS Modeler的數(shù)據(jù)挖掘
應(yīng)用... 157
7.3 開源數(shù)據(jù)挖掘工具WEKA.. 158
7.3.1 WEKA數(shù)據(jù)格式... 159
7.3.2 WEKA的使用... 160
思考題... 161
第8章 數(shù)據(jù)挖掘案例... 162
8.1 概述... 162
8.2 納稅評估示例... 162
8.2.1 納稅評估監(jiān)控等級預(yù)測
的方法... 163
8.2.2 構(gòu)建稅務(wù)行業(yè)數(shù)據(jù)中心... 164
8.2.3 構(gòu)建納稅評估監(jiān)控等級模型... 166
8.3 稅收預(yù)測建模示例... 168
8.4 稅務(wù)行業(yè)納稅人客戶細(xì)分探索... 171
8.4.1 客戶細(xì)分概述... 171
8.4.2 客戶細(xì)分的主要研究方法... 171
8.4.3 構(gòu)建客戶細(xì)分模型... 171
8.5 基于Hadoop平臺的數(shù)據(jù)挖掘... 175
8.5.1 基于IBM SPSS Analytic Server的數(shù)據(jù)挖掘 175
8.5.2 基于R的數(shù)據(jù)挖掘... 175
思考題... 176
第9章 大數(shù)據(jù)管理... 177
9.1 什么是大數(shù)據(jù)... 177
9.2 Hadoop介紹... 178
9.3 NoSQL介紹... 180
9.3.1 CAP定理... 181
9.3.2 一致性... 181
9.3.3 ACID模型... 182
9.3.4 BASE模型... 182
9.3.5 MoreSQL/NewSQL.. 182
9.4 InfoSphere BigInsights 3.0介紹... 183
9.4.1 Big SQL 3.0. 184
9.4.2 企業(yè)集成... 190
9.4.3 GPFS-FPO.. 192
9.4.4 IBM Adaptive MR.. 192
9.4.5 BigSheets. 193
9.4.6 高級文本分析.... 195
9.4.7 Solr 195
9.4.8 改進(jìn)工作負(fù)載調(diào)度... 196
9.4.9 壓縮... 197
思考題... 198
參考文獻(xiàn)