關(guān)于我們
書單推薦
新書推薦
|
數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用
本書全面介紹了數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用,重點(diǎn)闡述了數(shù)據(jù)挖掘經(jīng)典算法、原理及其應(yīng)用,旨在為讀者提供數(shù)據(jù)挖掘所需的基本知識,使讀者能夠從整體上對數(shù)據(jù)挖掘內(nèi)容與方法有所理解。本書內(nèi)容包含五個主題:數(shù)據(jù)、分類、關(guān)聯(lián)規(guī)則、聚類分析及其應(yīng)用。對于分類、關(guān)聯(lián)規(guī)則、聚類分析這三個主題,首先介紹了其基本概念與經(jīng)典算法,在后續(xù)的章節(jié)中闡述了其更高級的主題。
本書可作為高等學(xué)校計(jì)算機(jī)相關(guān)專業(yè)的高年級本科生與研究生教材, 也可作為需要理解數(shù)據(jù)挖掘和智能系統(tǒng)的專業(yè)人員的參考書。
大容量存儲設(shè)備的出現(xiàn)使得收集海量數(shù)據(jù)成為可能, 也加速了大數(shù)據(jù)時代的到來。高性能計(jì)算機(jī)為大數(shù)據(jù)的處理、分析和挖掘提供了計(jì)算平臺。在國防、政務(wù)、氣象、商業(yè)、科研等與人們生產(chǎn)和生活息息相關(guān)的各個領(lǐng)域中,數(shù)據(jù)正在以前所未有的速度產(chǎn)生。 大數(shù)據(jù)背后蘊(yùn)含著巨大的價值, 分析與挖掘這些有價值的規(guī)則與知識對人類的生產(chǎn)和生活具有重要的意義。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注, 如何從日益增加的數(shù)據(jù)中獲取準(zhǔn)確的信息和知識, 并進(jìn)一步廣泛應(yīng)用于商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計(jì)和科學(xué)探索等方面,是數(shù)據(jù)挖掘的核心。數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題,旨在從數(shù)據(jù)中提取出隱含的、先前未知的、具有潛在價值的規(guī)律與知識,主要有數(shù)據(jù)處理、模式挖掘和知識表示三個步驟。數(shù)據(jù)處理是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;模式挖掘是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來; 知識表示是盡可能以用戶可理解的方式(如可視化)將找出的知識表示出來。數(shù)據(jù)挖掘也是一門多學(xué)科交叉的研究與應(yīng)用領(lǐng)域,所涉及的領(lǐng)域包括數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識別、高性能計(jì)算、信息檢索等。本書主要介紹數(shù)據(jù)挖掘的相關(guān)方法與技術(shù),包括數(shù)據(jù)處理、決策樹算法、支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、頻繁模式樹算法、 K均值算法、層次聚類與密度聚類以及數(shù)據(jù)挖掘在社交網(wǎng)絡(luò)與生物網(wǎng)絡(luò)中的應(yīng)用研究等。 本書涵蓋了數(shù)據(jù)挖掘中的主要內(nèi)容,旨在讓讀者對數(shù)據(jù)挖掘的基本任務(wù)、算法原理及其應(yīng)用有全面的認(rèn)識。
本書廣泛適用于高年級本科生和研究生。由于學(xué)習(xí)這門課程的學(xué)生專業(yè)背景不同,很難達(dá)到堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)、數(shù)學(xué)專業(yè)要求,因此本書只要求最低限度的預(yù)備知識,不需要讀者具有數(shù)據(jù)庫的專業(yè)知識,但是假定讀者有一定的統(tǒng)計(jì)學(xué)與高等數(shù)學(xué)背景。如果讀者對于專業(yè)數(shù)學(xué)知識不了解,附錄中提供了最基礎(chǔ)的數(shù)學(xué)知識點(diǎn),可輔助讀者理解數(shù)據(jù)挖掘中的算法理論與過程。本書的章節(jié)安排自成體系,主講順序可以靈活處理:核心內(nèi)容在第2、3、4、7、10章, 第5、6、8、9章是對這些內(nèi)容的補(bǔ)充,可由教師根據(jù)課時長度與難易程度來選擇講授,其中分類、關(guān)聯(lián)規(guī)則和聚類分析這三部分內(nèi)容無先后順序,可以根據(jù)喜好來進(jìn)行講授與學(xué)習(xí); 第11、12章是數(shù)據(jù)挖掘在社交網(wǎng)絡(luò)與生物網(wǎng)絡(luò)中的應(yīng)用研究,可以選擇性學(xué)習(xí)與講授。
很多單位和個人都為本書的編寫與出版作出了貢獻(xiàn),作者的博士生吳文銘同學(xué),碩士生李東遠(yuǎn)、黃志豪、張本輝、譚詩吟等同學(xué)對本書的插圖與文字進(jìn)行了大量的校訂工作,在此表示感謝。感謝西安電子科技大學(xué)對本書的支持與資助,同時感謝西安電子科技大學(xué)出版社的高櫻編輯為本書出版所付出的努力。作者在編寫本書時花費(fèi)了大量的時間,特別感謝家人對作者工作的支持。
由于作者的水平有限,書中難免會存在疏漏與不足之處,敬請各位讀者批評指正。作者E-mail: xkma@xidian.edu.cn。
第1章 緒論 1
1.1 數(shù)據(jù)概述 1
1.2 數(shù)據(jù)與社會變革 3
1.2.1 數(shù)據(jù)改變思維模式 3
1.2.2 數(shù)據(jù)改變社會模式 3
1.2.3 數(shù)據(jù)改變國家戰(zhàn)略 4
1.3 數(shù)據(jù)挖掘的定義 5
1.4 數(shù)據(jù)挖掘的發(fā)展與應(yīng)用 7
1.4.1 數(shù)據(jù)挖掘的發(fā)展 7
1.4.2 數(shù)據(jù)挖掘的應(yīng)用 8
1.5 數(shù)據(jù)挖掘的任務(wù)與挑戰(zhàn) 9
1.5.1 數(shù)據(jù)挖掘的任務(wù) 10
1.5.2 數(shù)據(jù)挖掘面臨的挑戰(zhàn) 12
1.6 本書內(nèi)容與組織 13
1.6.1 章節(jié)安排 13
1.6.2 輔助閱讀材料 15
本章小結(jié) 16
習(xí)題 16
參考文獻(xiàn) 17
第2章 數(shù)據(jù) 21
2.1 數(shù)據(jù)的定義 21
2.2 屬性的分類 22
2.3 數(shù)據(jù)類型 24
2.3.1 數(shù)據(jù)的特性 24
2.3.2 數(shù)據(jù)的分類 24
2.4 相似性計(jì)算 26
2.4.1 相似性定義 26
2.4.2 單屬性相似性度量 28
2.4.3 多屬性相似性度量 29
本章小結(jié) 35
習(xí)題 35
參考文獻(xiàn) 37
第3章 數(shù)據(jù)預(yù)處理 38
3.1 數(shù)據(jù)質(zhì)量 38
3.1.1 誤差與噪聲 38
3.1.2 應(yīng)用問題 41
3.2 數(shù)據(jù)預(yù)處理概述 41
3.3 數(shù)據(jù)清洗 43
3.3.1 缺失數(shù)據(jù)處理 43
3.3.2 噪聲數(shù)據(jù)處理 43
3.3.3 不一致數(shù)據(jù)處理 45
3.4 數(shù)據(jù)集成與轉(zhuǎn)換 45
3.4.1 數(shù)據(jù)集成處理 45
3.4.2 數(shù)據(jù)轉(zhuǎn)換處理 46
3.4.3 離散化和二進(jìn)制化 47
3.5 數(shù)據(jù)約簡 49
3.5.1 數(shù)據(jù)立方歸并 49
3.5.2 維數(shù)約簡 50
3.5.3 數(shù)據(jù)壓縮 51
3.5.4 數(shù)據(jù)塊約簡 52
本章小結(jié) 55
習(xí)題 55
參考文獻(xiàn) 57
第4章 分類I:概念與決策樹算法 58
4.1 引言 58
4.1.1 分類的定義 58
4.1.2 分類的應(yīng)用 59
4.1.3 分類算法 60
4.2 決策樹 61
4.3 決策樹原理與構(gòu)建 63
4.3.1 算法原理 64
4.3.2 分支原則 65
4.3.3 最優(yōu)劃分 67
4.4 補(bǔ)充算法 76
4.4.1 ID3算法 76
4.4.2 C4.5算法 77
4.5 過擬合/欠擬合 80
4.5.1 定義 80
4.5.2 規(guī)避策略 81
4.6 分類準(zhǔn)確性評估 86
4.6.1 準(zhǔn)確性 86
4.6.2 ROC曲線 87
本章小結(jié) 90
習(xí)題 90
參考文獻(xiàn) 94
第5章 分類Ⅱ:支持向量機(jī) 95
5.1 引言 95
5.2 數(shù)學(xué)模型 96
5.2.1 算法動機(jī) 96
5.2.2 數(shù)學(xué)模型 97
5.3 優(yōu)化理論 99
5.3.1 凸優(yōu)化 99
5.3.2 對偶理論 99
5.3.3 拉格朗日方法和KKT條件 101
5.4 SVM優(yōu)化 103
5.4.1 硬間隔SVM 103
5.4.2 軟間隔SVM 104
5.5 非線性SVM 106
5.6 SVM的應(yīng)用 109
5.6.1 人臉識別 110
5.6.2 語音識別 110
5.6.3 圖像處理 110
本章小結(jié) 111
習(xí)題 112
參考文獻(xiàn) 113
第6章 分類Ⅲ:概率分類與回歸 115
6.1 引言 115
6.2 貝葉斯公式 116
6.2.1 概率基礎(chǔ) 116
6.2.2 圖論基礎(chǔ) 118
6.2.3 信息理論 118
6.3 貝葉斯分類算法 119
6.3.1 算法原理 119
6.3.2 樸素貝葉斯算法 121
6.3.3 算法應(yīng)用 124
6.4 貝葉斯信念網(wǎng)絡(luò) 125
6.4.1 定義與推理 126
6.4.2 結(jié)構(gòu)學(xué)習(xí)(網(wǎng)絡(luò)構(gòu)建) 128
6.4.3 貝葉斯信念網(wǎng)絡(luò)的特點(diǎn) 130
6.5 回歸分析 131
6.5.1 預(yù)備知識 131
6.5.2 線性回歸 131
6.5.3 多元線性回歸 135
6.5.4 最小二乘回歸 136
本章小結(jié) 136
習(xí)題 137
參考文獻(xiàn) 139
第7章 關(guān)聯(lián)規(guī)則Ⅰ:頻繁模式挖掘 141
7.1 引言 141
7.2 基本概念 143
7.3 頻繁項(xiàng)集挖掘 144
7.3.1 暴力破解方法 144
7.3.2 Apriori算法 145
7.3.3 加速技術(shù) 150
7.4 頻繁模式樹算法 153
7.4.1 FP樹表示法 153
7.4.2 FP算法的頻繁項(xiàng)集的產(chǎn)生 154
7.4.3 FP樹挖掘?qū)Ρ華priori算法 157
本章小結(jié) 158
習(xí)題 158
參考文獻(xiàn) 161
第8章 關(guān)聯(lián)規(guī)則Ⅱ:關(guān)聯(lián)規(guī)則挖掘 162
8.1 引言 162
8.2 關(guān)聯(lián)規(guī)則提取 162
8.2.1 候選規(guī)則創(chuàng)建 163
8.2.2 關(guān)聯(lián)規(guī)則挖掘 164
8.3 規(guī)則評價標(biāo)準(zhǔn) 167
8.3.1 支持度與置信度缺陷 167
8.3.2 關(guān)聯(lián)規(guī)則價值衡量的方法 168
8.4 規(guī)則評價指標(biāo) 169
8.4.1 興趣度 169
8.4.2 其他度量 172
8.5 一致性問題 174
8.6 關(guān)聯(lián)規(guī)則的應(yīng)用 177
8.6.1 關(guān)聯(lián)規(guī)則與CRM 177
8.6.2 CRM關(guān)聯(lián)規(guī)則挖掘 178
本章小結(jié) 180
習(xí)題 180
參考文獻(xiàn) 183
第9章 聚類分析Ⅰ:概念與
K均值算法 185
9.1 引言 185
9.2 聚類流程與方法 187
9.2.1 聚類流程 187
9.2.2 聚類方法 189
9.3 K均值算法 190
9.3.1 算法的三大要素 191
9.3.2 算法的流程 192
9.3.3 算法的性能分析 194
9.4 K均值算法的拓展 195
9.5 圖像分割的應(yīng)用 196
本章小結(jié) 198
習(xí)題 199
參考文獻(xiàn) 200
第10章 聚類分析Ⅱ: 分層聚類與
密度聚類 201
10.1 引言 201
10.2 分層聚類 202
10.2.1 算法流程 202
10.2.2 集合距離計(jì)算 204
10.3 分層聚類的實(shí)現(xiàn) 206
10.4 密度聚類 211
10.4.1 類密度 211
10.4.2 算法過程 213
10.5 聚類結(jié)果評估 215
10.6 聚類算法對比 217
10.6.1 K均值算法 217
10.6.2 分層聚類 217
10.6.3 DBSCAN算法 218
本章小結(jié) 218
習(xí)題 219
參考文獻(xiàn) 220
第11章 社交網(wǎng)絡(luò)圖聚類 221
11.1 引言 221
11.2 社團(tuán)結(jié)構(gòu) 222
11.2.1 社團(tuán)度量標(biāo)準(zhǔn) 223
11.2.2 社團(tuán)檢測算法 223
11.3 半監(jiān)督學(xué)習(xí) 225
11.4 社團(tuán)挖掘 226
11.4.1 算法框架 226
11.4.2 參數(shù)優(yōu)化 227
11.5 實(shí)驗(yàn)結(jié)果 228
11.5.1 檢測性能 229
11.5.2 分辨極限容忍性分析 231
本章小結(jié) 234
參考文獻(xiàn) 234
第12章 生物網(wǎng)絡(luò)挖掘 236
12.1 引言 236
12.2 相關(guān)工作 237
12.3 基于圖通信的檢測算法 238
12.3.1 拓?fù)淇坍? 239
12.3.2 復(fù)合體檢測 241
12.4 基于弱連接的檢測算法 244
12.4.1 弱連接效應(yīng) 244
12.4.2 置信網(wǎng)絡(luò)構(gòu)建 246
12.4.3 復(fù)合體檢測 247
12.5 實(shí)驗(yàn)結(jié)果 247
12.5.1 實(shí)驗(yàn)數(shù)據(jù) 247
12.5.2 F值與覆蓋率 248
12.5.3 P值 249
12.5.4 參數(shù)影響 251
12.5.5 魯棒性分析 256
12.6 圖密度與復(fù)合體拓?fù)潢P(guān)系 258
本章小結(jié) 259
參考文獻(xiàn) 260
附錄 數(shù)學(xué)基礎(chǔ) 262
你還可能感興趣
我要評論
|