當(dāng)下,由于強(qiáng)大的數(shù)據(jù)挖掘軟件平臺很容易獲得,草率地使用數(shù)據(jù)挖掘方法和技術(shù)將導(dǎo)致挖掘的結(jié)果混淆難解。這種失誤往往源自盲目使用“黑盒子”方法進(jìn)行數(shù)據(jù)挖掘,而最好的避免途徑就是使用“自盒子”方法,理解隱藏在軟件背后的算法和統(tǒng)計(jì)模型結(jié)構(gòu)。
本書分為7章,第l章是對降維方法的介紹,這是數(shù)據(jù)挖掘技術(shù)的一個(gè)先決條件;第2章至第6章為經(jīng)典的數(shù)據(jù)挖掘算法和技術(shù),包括一元回歸模型、多元回歸模型、邏輯回歸模型、貝葉斯網(wǎng)絡(luò)分析以及遺傳算法,通過實(shí)際案例引導(dǎo)讀者由已預(yù)處理的數(shù)據(jù)使用不同的挖掘技術(shù)從而得出所需結(jié)論;第7章為基于數(shù)據(jù)挖掘過程模型上的多個(gè)案例研究,通過多個(gè)領(lǐng)域的案例來闡述算法和技術(shù)是如何被運(yùn)用的。
本書可作為數(shù)據(jù)挖掘課程教學(xué)用書,適用于高年級本科生和研究生的教學(xué),也可供科研人員參考使用。
第1章 降維方法
1.1 數(shù)據(jù)挖掘中降低維度的必要性
1.2 主成分分析法
1.2.1 主成分分析應(yīng)用于房屋數(shù)據(jù)集
1.2.2 應(yīng)提取多少個(gè)主成分
1.3 因子分析法
1.3.1 因子分析法在成年人數(shù)據(jù)集中的應(yīng)用
1.3.2 因子旋轉(zhuǎn)
1.4 用戶自定義合成
總結(jié)
參考文獻(xiàn)
練習(xí)題
第2章 回歸模型
2.1 簡單線性回歸實(shí)例
2.2 最小二乘法估計(jì)
第1章 降維方法
1.1 數(shù)據(jù)挖掘中降低維度的必要性
1.2 主成分分析法
1.2.1 主成分分析應(yīng)用于房屋數(shù)據(jù)集
1.2.2 應(yīng)提取多少個(gè)主成分
1.3 因子分析法
1.3.1 因子分析法在成年人數(shù)據(jù)集中的應(yīng)用
1.3.2 因子旋轉(zhuǎn)
1.4 用戶自定義合成
總結(jié)
參考文獻(xiàn)
練習(xí)題
第2章 回歸模型
2.1 簡單線性回歸實(shí)例
2.2 最小二乘法估計(jì)
2.3 決定系數(shù)
2.4 估計(jì)值的標(biāo)準(zhǔn)誤差
2.5 相關(guān)系數(shù)
2.6 方差分析表
2.7 異常點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響觀測值
2.8 回歸模型
2.9 回歸推斷
2.9.1 x和y之間線性關(guān)系的t檢驗(yàn)
2.9.2 回歸直線斜率的置信區(qū)間
2.9.3 給定x條件下,Y均值的置信區(qū)間
2.9.4 給定x條件下,Y隨機(jī)選擇值的預(yù)測區(qū)間
2.10 回歸假設(shè)檢驗(yàn)
2.11 實(shí)例:棒球數(shù)據(jù)集
2.12 實(shí)例:加利福尼亞州數(shù)據(jù)集
2.13 線性變換實(shí)現(xiàn)
總結(jié)
參考文獻(xiàn)
練習(xí)題
第3章 多元回歸和建模
3.1 多元回歸實(shí)例
3.2 多元回歸模型
3.3 多元回歸推斷
3.4 含有分類預(yù)測變量的回歸
3.4.1 調(diào)整R2:對包含無用預(yù)測變量的懲罰模式
3.4.2 序貫的誤差平方和
3.5 多重共線性
3.6 變量選擇方法
3.6.1 偏F檢驗(yàn)
3.6.2 向前選擇程序
3.6.3 向后排除程序
3.6.4 逐步選擇程序
3.6.5 最優(yōu)子集程序
3.6.6 所有可能的子集選擇程序
3.7變量選擇方法的應(yīng)用
3.7.1 向前選擇程序應(yīng)用于谷物數(shù)據(jù)集
3.7.2 向后排除程序應(yīng)用于谷物數(shù)據(jù)集
3.7.3 逐步選擇程序應(yīng)用于谷物數(shù)據(jù)集
3.7.4 最優(yōu)子集程序應(yīng)用于谷物數(shù)據(jù)集
……
第4章 邏輯回歸
第5章 樸素貝葉斯估計(jì)和貝葉斯網(wǎng)絡(luò)
第6章 遺傳算法
第7章 案便研究:直郵營銷的回應(yīng)建模問題
總結(jié)
參考文獻(xiàn)