高維數(shù)據(jù)分析預(yù)處理技術(shù)
作者針對高維稀疏數(shù)據(jù)挖掘問題,從數(shù)據(jù)預(yù)處理的角度,研究對象—屬性空間的劃分問題,其目的是把所研究的數(shù)據(jù)挖掘空間分解為若干規(guī)模較小的對象—屬性空間,從而降低實(shí)際數(shù)據(jù)挖掘的難度。本書針對高維稀疏數(shù)據(jù)挖掘問題,以降低數(shù)據(jù)挖掘規(guī)模,建立了體系完整的數(shù)據(jù)預(yù)處理理論和方法,具有很強(qiáng)的理論意義和實(shí)際應(yīng)用前景。
祝琴,女,南昌大學(xué)工業(yè)自動化專業(yè)本科畢業(yè);南昌大學(xué)控制理論與控制專業(yè)碩士畢業(yè);北京科技大學(xué)管理科學(xué)與工程專業(yè)博士畢業(yè)并獲博士學(xué)位。現(xiàn)為南昌大學(xué)管理學(xué)院副教授,主要從事管理科學(xué)與工程專業(yè)的教學(xué)與科研工作。
第1章 引言/1
第2章 文獻(xiàn)綜述/5
2.1 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘/5
2.2 聚類分析/13
2.3 數(shù)據(jù)挖掘所面臨的挑戰(zhàn)/24
2.4 高維數(shù)據(jù)/27
2.5 維度約簡/31
2.6 高維數(shù)據(jù)聚類/38
2.7 本章小結(jié)/43
第3章 基于排序的高屬性維稀疏數(shù)據(jù)聚類方法/44
3.1 高維稀疏數(shù)據(jù)/44
3.2 高屬性維聚類問題描述/47
3.3 經(jīng)典高屬性維稀疏數(shù)據(jù)聚類CABOSFV方法分析/54
3.4 基于排序的CABOSFV方法——CABOSFVABS方法/59
3.5 本章小結(jié)/68
第4章 對象—屬性空間分割的兩階段聯(lián)合聚類方法/70
4.1 具有高維稀疏特征的對象—屬性空間分割問題的提法/70
4.2 傳統(tǒng)對象—屬性空間分割方法基于內(nèi)聚度方法/71
4.3 聯(lián)合聚類方法/75
4.4 兩階段聯(lián)合聚類方法(MTPCCA)/86
4.5 本章小結(jié)/96
第5章 對象—屬性子空間重疊區(qū)域的歸屬問題/98
5.1 問題描述及相關(guān)研究工作/98
5.2 對象—屬性子空間的邊緣重疊區(qū)域歸屬方法——OASEDA方法/108
5.3 本章小結(jié)/126
第6章 對象—屬性子空間優(yōu)化/128
6.1 高維稀疏特征的對象—屬性非關(guān)聯(lián)子空間/130
6.2 剔除非關(guān)聯(lián)子空間RNASAUBSC方法/131
6.3 RNASAUBSC方法算例/136
6.4 RNASAUBSC方法應(yīng)用/138
6.5 本章小結(jié)/141
第7章 結(jié)論/142
參考文獻(xiàn)/145
后 記/165
圖目錄
圖1-1 本書結(jié)構(gòu)圖/4
圖2-1 數(shù)據(jù)庫知識發(fā)現(xiàn)的過程圖/6
圖2-2 聚結(jié)型層次聚類和分解型層次聚類法的比較/17
圖2-3 高維數(shù)據(jù)聚類方法的分類圖/39
圖3-1 CABOSFV聚類方法的兩層結(jié)構(gòu)圖/58
圖4-1 傳統(tǒng)聚類與聯(lián)合聚類/76
圖4-2 行和列均獨(dú)立的聯(lián)合聚類/78
圖4-3 格子結(jié)構(gòu)的獨(dú)立聯(lián)合聚類/79
圖4-4 獨(dú)立行的聯(lián)合聚類/79
圖4-5 獨(dú)立列的聯(lián)合聚類/80
圖4-6 樹型的沒有重疊獨(dú)立的聯(lián)合聚類/80
圖4-7 沒有獨(dú)立、沒有重疊的聯(lián)合聚類/81
圖4-8 層次結(jié)構(gòu)重疊的聯(lián)合聚類/81
圖4-9 6個(gè)對象10種屬性的對象—屬性空間圖/90
圖4-10 **階段聚類分割后的對象—屬性空間圖/92
圖4-11 兩階段聯(lián)合聚類識別的對象—屬性子空間圖/92
圖4-12 30個(gè)對象、45種屬性的對象—屬性空間圖/95
圖4-13 基于內(nèi)聚度分割方法識別的對象—屬性子空間圖/95
圖4-14 基于MTPCCA方法識別的對象—屬性子空間圖/96
圖5-1 子空間中的交叉重疊區(qū)域圖/99
圖5-2 交叉重疊區(qū)域中零屬性值現(xiàn)象/99
圖5-3 聚類邊界不準(zhǔn)現(xiàn)象/100
圖5-4 擴(kuò)展1/2網(wǎng)格圖/104
圖5-5 同位置點(diǎn)距離計(jì)算情況圖/104
圖5-6 聚類邊界點(diǎn)、噪聲、孤立點(diǎn)圖/104
圖5-7 邊界效應(yīng)引起聚類效果不好圖/107
圖5-8 受力分析圖/109
圖5-9 子空間的交叉重疊區(qū)域分塊圖/116
圖5-10 8個(gè)對象、10種屬性的對象—屬性空間圖/121
圖5-11 MTPCCA方法識別的對象—屬性子空間圖(一)/121
圖5-12 8個(gè)對象、10種屬性的對象—屬性子空間圖/122
圖5-13 26個(gè)客戶訂購45種產(chǎn)品的對象—屬性空間圖/124
圖5-14 MTPCCA方法識別的對象—屬性子空間圖(二)/125
圖5-15 根據(jù)OASEDA方法得出的對象—屬性子空間圖/126
圖6-1 8個(gè)對象、10種屬性對應(yīng)的對象—屬性子空間圖/129
圖6-2 對象—屬性稀疏子空間圖/130
圖6-3 對象—屬性非關(guān)聯(lián)子空間圖/132
圖6-4 RNASAUBSC方法運(yùn)算過程圖/133
圖6-5 4個(gè)對象、5種屬性對象—屬性空間的優(yōu)化過程圖/135
圖6-6 30個(gè)對象、45種屬性的對象—屬性子空間圖/137
圖6-7 30個(gè)對象、45種屬性優(yōu)化后的對象—屬性子空間圖/137
圖6-8 8個(gè)客戶訂購10種產(chǎn)品的對象—屬性子空間圖/140
圖6-9 對象—屬性子空間C的優(yōu)化過程圖/140
表目錄
表3-1 高維稀疏數(shù)據(jù)/46
表3-2 高維稀疏的數(shù)據(jù)歸一化/46
表3-3 高維稀疏二態(tài)數(shù)據(jù)表/47
表3-4 二態(tài)變量取值統(tǒng)計(jì)/49
表3-5 對象數(shù)據(jù)例表/51
表3-6 分類變量轉(zhuǎn)化為不對稱二態(tài)變量/52
表3-7 6個(gè)客戶訂購8種產(chǎn)品的稀疏特征表/55
表3-8 6個(gè)客戶訂購8種產(chǎn)品情況的壓縮存儲/57
表3-9 15個(gè)客戶對48種產(chǎn)品的訂購情況/64
表3-10 CABOSFV方法聚類結(jié)果/65
表3-11 CABOSFVABS方法聚類結(jié)果/67
表4-1 所包含的數(shù)值都相等的聯(lián)合聚類/76
表4-2 同列包含數(shù)值相等的聯(lián)合聚類/77
表4-3 同行包含數(shù)值相等的聯(lián)合聚類/77
表4-4 加法模型/77
表4-5 乘法模型/77
表4-6 演變趨勢一致的聯(lián)合聚類/78
表4-7 8個(gè)客戶訂購10種產(chǎn)品的稀疏特征表(一)/89
表4-8 8個(gè)客戶訂購10種產(chǎn)品的壓縮存儲表/89
表4-9 30個(gè)對象、45種屬性取值的情況表/93
表5-1 8個(gè)客戶訂購10種產(chǎn)品的情況表/119
表5-2 8個(gè)客戶訂購10種產(chǎn)品的歸一化結(jié)果表/120
表5-3 8個(gè)客戶訂購10種產(chǎn)品的稀疏特征值表/120
表5-4 26個(gè)客戶訂購45種產(chǎn)品的情況/123
表6-1 8個(gè)客戶訂購10種產(chǎn)品的稀疏特征表(二)/129
表6-2 2個(gè)客戶訂購7種產(chǎn)品的稀疏特征表/133
表6-3 4個(gè)客戶訂購5種產(chǎn)品的稀疏特征表/134
表6-4 8個(gè)客戶訂購10種產(chǎn)品的統(tǒng)計(jì)表/138
表6-5 8個(gè)客戶訂購10種產(chǎn)品數(shù)量歸一化的數(shù)據(jù)表/139
表6-6 8個(gè)客戶訂購10種產(chǎn)品的稀疏特征表(三)/139