本書較全面地介紹了數(shù)據(jù)挖掘的基本理論、算法及應(yīng)用。首先介紹數(shù)據(jù)挖掘的基本概念,隨后重點講述關(guān)聯(lián)規(guī)則、分類、聚類等模式的挖掘技術(shù)并介紹相關(guān)的經(jīng)典算法,同時注重數(shù)據(jù)挖掘技術(shù)的應(yīng)用實例講解,包括多模態(tài)腦影像挖掘、腦網(wǎng)絡(luò)分析及其在生物信息學和軟件工程中的應(yīng)用。*后,對近年來發(fā)展迅猛的領(lǐng)域,如使用進化計算作為主要方法的數(shù)據(jù)挖掘技術(shù)也用了一定篇幅講述其基本內(nèi)容。
更多科學出版社服務(wù),請掃碼獲取。
目錄
第1章 緒論
1.1 什么是數(shù)據(jù)挖掘 1
1.2 數(shù)據(jù)挖掘的任務(wù) 2
1.3 數(shù)據(jù)挖掘在腦疾病診斷以及生物信息學中的應(yīng)用 3
1.4 數(shù)據(jù)挖掘在軟件設(shè)計和應(yīng)用領(lǐng)域的應(yīng)用 4
1.5 基于進化計算的數(shù)據(jù)挖掘技術(shù) 4
1.6 本書的內(nèi)容與組織 4
第2章 數(shù)據(jù)準備 6
2.1 數(shù)據(jù) 6
2.1.1 數(shù)據(jù)集類型 6
2.1.2 數(shù)據(jù)屬性及類型 7
2.1.3 數(shù)據(jù)相似性與相異性 8
2.2 數(shù)據(jù)預(yù)處理方法 10
2.2.1 數(shù)據(jù)清理 10
2.2.2 數(shù)據(jù)變換 11
2.2.3 數(shù)據(jù)歸約 12
2.2.4數(shù)據(jù)集成 14
參考文獻 15
第3章 關(guān)聯(lián)規(guī)則 16
3.1 基本概念 16
3.2 Apriori算法 17
3.3 其他關(guān)聯(lián)規(guī)則挖掘 18
參考文獻 19
第4章 分類 21
4.1 基本概念 21
4.2 決策樹分類 22
4.2.1 決策樹概念 22
4.2.2 常見決策樹算法 23
4.3 基于貝葉斯定理的分類方法 28
4.3.1 樸素貝葉斯分類器 28
4.3.2 貝葉斯信念網(wǎng)絡(luò) 29
4.4 多層前饋神經(jīng)網(wǎng)絡(luò)分類器 30
4.4.1 基本概念 31
4.4.2 BP算法 32
4.5 支持向量機分類器 34
4.5.1 支持向量與超平面 34
4.5.2 線性可分支持向量機 36
4.5.3 線性不可分支持向量機 39
4.5.4 非線性支持向量機 42
4.6 最近鄰分類器 43
4.7 分類器的評估與度量 44
4.7.1 性能評估指標 44
4.7.2 分類器的準確率評估 45
4.7.3 常見評估方法 45
參考文獻 47
第5章 聚類分析 48
5.1 聚類概述 48
5.2 基于劃分的聚類算法 51
5.2.1 k均值聚類 51
5.2.2 k中心點聚類 52
5.2.3 EM 53
5.3 基于層次的聚類算法 54
5.3.1 簇間距離度量方法 54
5.3.2 BIRCH 55
5.3.3 CURE 57
5.3.4 ROCK 57
5.3.5 Chame1eon 58
5.4 基于網(wǎng)格與基于密度的聚類 59
5.4.1 STLNG 59
5.4.2 DBSCAN 60
5.4.3 OPTICS 61
5.5 其他方法聚類 61
5.5.1 NMF 61
5.5.2 子空間聚類 62
5.6 聚類有效性驗證 63
參考文獻 65
第6章 多模態(tài)腦影像挖掘 67
6.1 引言 67
6.2 多模態(tài)分類 68
6.2.1 基于多核學習的多模態(tài)分類器 68
6.2.2 實驗結(jié)果 69
6.3 多模態(tài)特征選擇 72
6.3.1 基于流形正則化多模態(tài)特征選擇 72
6.3.2 實驗結(jié)果 74
6.4 結(jié)論 76
參考文獻 77
第7章 腦網(wǎng)絡(luò)分析 79
7.1 腦網(wǎng)絡(luò)分析概述 79
7.2 基于拓撲結(jié)構(gòu)的結(jié)構(gòu)化特征選擇 81
7.2.1 方法的框架 81
7.2.2 Weisfei1er-Lehman子樹核 82
7.2.3 特征提取 83
7.2.4 結(jié)構(gòu)化特征選擇 84
7.3 腦網(wǎng)絡(luò)的判別性子圖學習 86
7.3.1 判剔性子圖 86
7.3.2 基于判別性子圖的腦網(wǎng)絡(luò)分類 88
7.3.3 進一步提高效果的方法 88
參考文獻 89
第8章 數(shù)據(jù)挖掘在生物信息學中的應(yīng)用 92
8.1 基于樹型結(jié)構(gòu)引導(dǎo)的稀疏學習方法在基因-影像關(guān)聯(lián)分析中的應(yīng)用 92
8.1.1 引言 92
8.1.2 方法 93
8.1.3 實驗 96
8.1.4 結(jié)論 98
8.2 基于結(jié)構(gòu)化ECOC的蛋白質(zhì)圖像亞細胞定位方法 98
8.2.1 引言 98
8.2.2 方法 100
8.2.3 實驗 102
8.2.4 結(jié)論 104
參考文獻 104
第9章 軟件數(shù)據(jù)挖掘 106
9.1 軟件數(shù)據(jù)挖掘概述 106
9.2 軟件缺陷預(yù)測簡介 106
9.2.1 概述 106
9.2.2 基于機器學習的靜態(tài)軟件缺陷預(yù)測 106
9.3 代價敏感特征選擇在軟件缺陷預(yù)測中的應(yīng)用 108
9.3.1 雙重代價敏感特征選擇 108
9.3.2 代價敏感特征選擇算法思想概述 110
9.3.3 CSVS特征選擇算法 111
9.3.4 CSLS特征選擇算法 112
9.3.5 CSCS特征選擇算法 112
9.3.6 實驗及結(jié)果分析 113
9.4 小結(jié) 117
參考文獻 117
第10章 基于進化計算的數(shù)據(jù)挖掘 119
10.1 引言 119
10.2 進化計算 119
10.2.1 進化算法 119
10.2.2 多目標進化算法 120
10.3 數(shù)據(jù)挖掘中進化計算的應(yīng)用 122
10.3.1 進化計算用于特征選擇 122
10.3.2 進化計算用于分類 125
10.3.3 進化計算用于聚類分析 128
10.3.4進化計算用于規(guī)則發(fā)現(xiàn) 131
10.4 結(jié)束語 133
參考文獻 134