MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)
定 價(jià):69 元
叢書名:大數(shù)據(jù)技術(shù)叢書
- 作者:張良均 ... [等] 著
- 出版時(shí)間:2015/6/1
- ISBN:9787111504351
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP317
- 頁碼:329
- 紙張:膠版紙
- 版次:1
- 開本:16K
《大數(shù)據(jù)技術(shù)叢書:MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》共16章,共三篇。基礎(chǔ)篇(第1~5章),第1章的主要內(nèi)容是數(shù)據(jù)挖掘概述;第2章對(duì)《大數(shù)據(jù)技術(shù)叢書:MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》所用到的數(shù)據(jù)挖掘建模工具M(jìn)ATALB進(jìn)行了簡明扼要的說明;第3章、第4章、第5章對(duì)數(shù)據(jù)挖掘的建模過程,包括數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理及挖掘建模的常用算法與原理進(jìn)行了介紹。實(shí)戰(zhàn)篇(第6~15章),重點(diǎn)對(duì)數(shù)據(jù)挖掘技術(shù)在電力、航空、醫(yī)療、互聯(lián)網(wǎng)、生產(chǎn)制造以及公共服務(wù)等行業(yè)的應(yīng)用進(jìn)行了分析。在案例結(jié)構(gòu)組織上,《大數(shù)據(jù)技術(shù)叢書:MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》是按照先介紹案例背景與挖掘目標(biāo),再闡述分析方法與過程,最后完成模型構(gòu)建的順序進(jìn)行的,在建模過程關(guān)鍵環(huán)節(jié),穿插程序?qū)崿F(xiàn)代碼。最后通過上機(jī)實(shí)踐,加深數(shù)據(jù)挖掘技術(shù)在案例應(yīng)用中的理解。提高篇(第16章),介紹了基于MATLAB二次開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件——TipDM數(shù)據(jù)挖掘建模工具,并以此工具為例詳細(xì)介紹了基于MATLAB接口完成數(shù)據(jù)挖掘二次開發(fā)的各個(gè)步驟,使讀者體驗(yàn)到通過MATLAB實(shí)現(xiàn)數(shù)據(jù)挖掘二次開發(fā)的強(qiáng)大魅力。
多位資深數(shù)據(jù)挖掘?qū)<?0余年實(shí)戰(zhàn)經(jīng)驗(yàn)結(jié)晶,深入講解數(shù)據(jù)挖掘各個(gè)環(huán)節(jié)的各項(xiàng)技術(shù)通過10余個(gè)真實(shí)的案例為10余個(gè)行業(yè)的數(shù)據(jù)挖掘提供了解決方案,并提供相關(guān)的建模文件和源代碼
為什么要寫這本書LinkedIn 對(duì)全球超過3.3億用戶的工作經(jīng)歷和技能進(jìn)行分析后得出,在目前最炙手可熱的25項(xiàng)技能中,數(shù)據(jù)挖掘人才需求排名第一。那么數(shù)據(jù)挖掘是什么?數(shù)據(jù)挖掘是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、先前未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢,并用這些知識(shí)和規(guī)則建立用于決策支持的模型,以及提供預(yù)測性決策支持的方法、工具和過程。數(shù)據(jù)挖掘有助于企業(yè)發(fā)現(xiàn)業(yè)務(wù)的趨勢,揭示已知的事實(shí),預(yù)測未知的結(jié)果,因此“數(shù)據(jù)挖掘”已成為企業(yè)保持競爭力的必要方法。
但和國外相比,我國由于信息化程度不太高,企業(yè)內(nèi)部信息不完整,所以零售業(yè)、銀行、保險(xiǎn)、證券等行業(yè)對(duì)數(shù)據(jù)挖掘的應(yīng)用并不太理想。但隨著市場競爭的加劇,各行業(yè)對(duì)數(shù)據(jù)挖掘技術(shù)的意愿越來越強(qiáng)烈,可以預(yù)計(jì),未來幾年,各行業(yè)的數(shù)據(jù)分析應(yīng)用一定會(huì)從傳統(tǒng)的統(tǒng)計(jì)分析發(fā)展到大規(guī)模的數(shù)據(jù)挖掘應(yīng)用。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)過剩、人才短缺,數(shù)據(jù)挖掘?qū)I(yè)人才的培養(yǎng)又需要專業(yè)知識(shí)和職業(yè)經(jīng)驗(yàn)的積累。所以,本書注重?cái)?shù)據(jù)挖掘理論與項(xiàng)目案例實(shí)踐相結(jié)合,可以讓讀者獲得真實(shí)的數(shù)據(jù)挖掘?qū)W習(xí)與實(shí)踐環(huán)境,更快、更好地學(xué)習(xí)數(shù)據(jù)挖掘知識(shí)與積累職業(yè)經(jīng)驗(yàn)。
總的來說,隨著云時(shí)代的來臨,大數(shù)據(jù)技術(shù)將具有越來越重要的戰(zhàn)略意義。大數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)要素,人們對(duì)于海量數(shù)據(jù)的運(yùn)用預(yù)示著新一輪生產(chǎn)率增長和消費(fèi)者激增浪潮的到來。大數(shù)據(jù)分析技術(shù)將幫助企業(yè)用戶在合理的時(shí)間內(nèi)攫取、管理、處理、整理海量數(shù)據(jù),也為企業(yè)經(jīng)營決策提供積極的幫助;大數(shù)據(jù)分析作為數(shù)據(jù)存儲(chǔ)和挖掘分析的前沿技術(shù),廣泛應(yīng)用于物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等戰(zhàn)略性的新興產(chǎn)業(yè)。雖然大數(shù)據(jù)目前在國內(nèi)還處于初級(jí)階段,但是其商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來,特別是有實(shí)踐經(jīng)驗(yàn)的大數(shù)據(jù)分析人才更是各企業(yè)爭奪的熱門。為了滿足日益增長的大數(shù)據(jù)分析人才的需求,很多大學(xué)開始嘗試開設(shè)不同程度的大數(shù)據(jù)分析課程!按髷(shù)據(jù)分析”作為大數(shù)據(jù)時(shí)代的核心技術(shù),必將成為高校數(shù)學(xué)與統(tǒng)計(jì)學(xué)專業(yè)的重要課程之一。
張良均,資深大數(shù)據(jù)挖掘?qū)<液湍J阶R(shí)別專家,有10多年的大數(shù)據(jù)挖掘應(yīng)用、咨詢經(jīng)驗(yàn),10余年數(shù)據(jù)倉庫系統(tǒng)管理與實(shí)施經(jīng)驗(yàn),超過10年的系統(tǒng)開發(fā)與設(shè)計(jì)經(jīng)驗(yàn)。為電信、電力、互聯(lián)網(wǎng)、生產(chǎn)制造、零售、銀行、生物、化工、醫(yī)藥等多個(gè)行業(yè)上百家大型企業(yè)提供過數(shù)據(jù)挖掘應(yīng)用與咨詢服務(wù),實(shí)踐經(jīng)驗(yàn)非常豐富。此外,他精通JavaEE企業(yè)級(jí)應(yīng)用開發(fā),是廣東工業(yè)大學(xué)和華南師范大學(xué)兼職教授,著有《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》、《數(shù)據(jù)挖掘:實(shí)用案例分析》等暢銷書。
基礎(chǔ)篇
第1章 數(shù)據(jù)挖掘基礎(chǔ)
1.1 某知名連鎖餐飲企業(yè)的困惑
1.2 從餐飲服務(wù)到數(shù)據(jù)挖掘
1.3 數(shù)據(jù)挖掘的基本任務(wù)
1.4 數(shù)據(jù)挖掘的建模過程
1.4.1 定義挖掘目標(biāo)
1.4.2 數(shù)據(jù)取樣
1.4.3 數(shù)據(jù)探索
1.4.4 數(shù)據(jù)預(yù)處理
1.4.5 挖掘建模
1.4.6 模型評(píng)價(jià)
1.5 常用的數(shù)據(jù)挖掘建模工具
1.6 小結(jié)
第2章 MATLAB數(shù)據(jù)分析工具箱簡介
2.1 MATLAB的安裝
2.2 MATLAB使用入門
2.2.1 MATLAB R2014a操作界面
2.2.2 MATLAB常用操作
2.3 MATLAB數(shù)據(jù)分析工具箱
2.4 配套附件使用設(shè)置
2.5 小結(jié)
第3章 數(shù)據(jù)探索
3.1 數(shù)據(jù)質(zhì)量分析
3.1.1 缺失值分析
3.1.2 異常值分析
3.1.3 一致性分析
3.2 數(shù)據(jù)特征分析
3.2.1 分布分析
3.2.2 對(duì)比分析
3.2.3 統(tǒng)計(jì)量分析
3.2.4 周期性分析
3.2.5 貢獻(xiàn)度分析
3.2.6 相關(guān)性分析
3.3 MATLAB主要數(shù)據(jù)的探索函數(shù)
3.3.1 統(tǒng)計(jì)特征函數(shù)
3.3.2 統(tǒng)計(jì)作圖函數(shù)
3.4 小結(jié)
第4章 數(shù)據(jù)預(yù)處理
4.1 數(shù)據(jù)清洗
4.1.1 缺失值處理
4.1.2 異常值處理
4.2 數(shù)據(jù)集成
4.2.1 實(shí)體識(shí)別
4.2.2 冗余屬性識(shí)別
4.3 數(shù)據(jù)變換
4.3.1 簡單的函數(shù)變換
4.3.2 規(guī)范化
4.3.3 連續(xù)屬性離散化
4.3.4 屬性構(gòu)造
4.3.5 小波變換
4.4 數(shù)據(jù)規(guī)約
4.4.1 屬性規(guī)約
4.4.2 數(shù)值規(guī)約
4.5 MATLAB主要的數(shù)據(jù)預(yù)處理函數(shù)
4.6 小結(jié)
第5章 挖掘建模
5.1 分類與預(yù)測
5.1.1 實(shí)現(xiàn)過程
5.1.2 常用的分類與預(yù)測算法
5.1.3 回歸分析
5.1.4 決策樹
5.1.5 人工神經(jīng)網(wǎng)絡(luò)
5.1.6 分類與預(yù)測算法評(píng)價(jià)
5.1.7 MATLAB主要分類與預(yù)測算法函數(shù)
5.2 聚類分析
5.2.1 常用的聚類分析算法
5.2.2 K-Means聚類算法
5.2.3 聚類分析算法評(píng)價(jià)
5.2.4 MATLAB主要聚類分析算法函數(shù)
5.3 關(guān)聯(lián)規(guī)則
5.3.1 常用的關(guān)聯(lián)規(guī)則算法
5.3.2 Apriori算法
5.4 時(shí)序模式
5.4.1 時(shí)間序列算法
5.4.2 時(shí)間序列的預(yù)處理
5.4.3 平穩(wěn)時(shí)間序列分析
5.4.4 非平穩(wěn)時(shí)間序列分析
5.4.5 MATLAB主要時(shí)序模式算法函數(shù)
5.5 離群點(diǎn)檢測
5.5.1 離群點(diǎn)的檢測方法
5.5.2 基于統(tǒng)計(jì)模型的離群點(diǎn)的檢測方法
5.5.3 基于聚類的離群點(diǎn)的檢測方法
5.6 小結(jié)
實(shí)戰(zhàn)篇
第6章 電力企業(yè)的竊漏電用戶自動(dòng)識(shí)別
6.1 背景與挖掘目標(biāo)
6.2 分析方法與過程
6.2.1 數(shù)據(jù)抽取
6.2.2 數(shù)據(jù)探索分析
6.2.3 數(shù)據(jù)預(yù)處理
6.2.4 構(gòu)建專家樣本
6.2.5 構(gòu)建模型
6.3 上機(jī)實(shí)驗(yàn)
6.4 拓展思考
6.5 小結(jié)
第7章 航空公司的客戶價(jià)值分析
7.1 背景與挖掘目標(biāo)
7.2 分析方法與過程
7.2.1 數(shù)據(jù)抽取
7.2.2 數(shù)據(jù)探索分析
7.2.3 數(shù)據(jù)預(yù)處理
7.2.4 模型構(gòu)建
7.3 上機(jī)實(shí)驗(yàn)
7.4 拓展思考
7.5 小結(jié)
第8章 中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘
8.1 背景與挖掘目標(biāo)
8.2 分析方法與過程
8.2.1 數(shù)據(jù)獲取
8.2.2 數(shù)據(jù)預(yù)處理
8.2.3 模型構(gòu)建
8.3 上機(jī)實(shí)驗(yàn)
8.4 拓展思考
8.5 小結(jié)
第9章 基于水色圖像的水質(zhì)評(píng)價(jià)
9.1 背景與挖掘目標(biāo)
9.2 分析方法與過程
9.2.1 數(shù)據(jù)預(yù)處理
9.2.2 構(gòu)建模型
9.2.3 水質(zhì)評(píng)價(jià)
9.3 上機(jī)實(shí)驗(yàn)
9.4 拓展思考
9.5 小結(jié)
第10章 基于關(guān)聯(lián)規(guī)則的網(wǎng)站智能推薦服務(wù)
10.1 背景與挖掘目標(biāo)
10.2 分析方法與過程
10.2.1 數(shù)據(jù)抽取
10.2.2 數(shù)據(jù)預(yù)處理
10.2.3 構(gòu)建模型
10.3 上機(jī)實(shí)驗(yàn)
10.4 拓展思考
10.5 小結(jié)
第11章 應(yīng)用系統(tǒng)負(fù)載分析與磁盤容量預(yù)測
11.1 背景與挖掘目標(biāo)
11.2 分析方法與過程
11.2.1 數(shù)據(jù)抽取
11.2.2 數(shù)據(jù)探索分析
11.2.3 數(shù)據(jù)預(yù)處理
11.2.4 構(gòu)建模型
11.3 上機(jī)實(shí)驗(yàn)
11.4 拓展思考
11.5 小結(jié)
第12章 面向網(wǎng)絡(luò)輿情的關(guān)聯(lián)度分析
12.1 背景與挖掘目標(biāo)
12.2 分析方法與過程
12.2.1 數(shù)據(jù)抽取
12.2.2 數(shù)據(jù)預(yù)處理
12.2.3 構(gòu)建模型
12.3 上機(jī)實(shí)驗(yàn)
12.4 拓展思考
12.5 小結(jié)
第13章 家用電器用戶行為分析及事件識(shí)別
13.1 背景與挖掘目標(biāo)
13.2 分析方法與過程
13.2.1 數(shù)據(jù)抽取
13.2.2 數(shù)據(jù)探索分析
13.2.3 數(shù)據(jù)預(yù)處理
13.2.4 模型構(gòu)建
13.2.5 模型檢驗(yàn)
13.3 上機(jī)實(shí)驗(yàn)
13.4 拓展思考
13.5 小結(jié)
第14章 基于基站定位數(shù)據(jù)的商圈分析
14.1 背景與挖掘目標(biāo)
14.2 分析方法與過程
14.2.1 數(shù)據(jù)抽取
14.2.2 數(shù)據(jù)探索分析
14.2.3 數(shù)據(jù)預(yù)處理
14.2.4 構(gòu)建模型
14.3 上機(jī)實(shí)驗(yàn)
14.4 拓展思考
14.5 小結(jié)
第15章 氣象與輸電線路的缺陷關(guān)聯(lián)分析
15.1 背景與挖掘目標(biāo)
15.2 分析方法與過程
15.2.1 數(shù)據(jù)抽取
15.2.2 數(shù)據(jù)探索分析
15.2.3 數(shù)據(jù)預(yù)處理
15.2.4 模型構(gòu)建
15.3 上機(jī)實(shí)驗(yàn)
15.4 拓展思考
15.5 小結(jié)
提高篇
第16章 基于MATLAB的數(shù)據(jù)挖掘二次開發(fā)
16.1 混合編程應(yīng)用體驗(yàn)——TipDM數(shù)據(jù)挖掘平臺(tái)
16.1.1 建設(shè)目標(biāo)
16.1.2 模型構(gòu)建
16.1.3 模型發(fā)布
16.1.4 模型調(diào)用
16.1.5 模型更新
16.2 二次開發(fā)過程
16.2.1 接口算法編程
16.2.2 用Library Compiler創(chuàng)建Java組件
16.2.3 安裝MATLAB運(yùn)行時(shí)環(huán)境
16.2.4 JDK環(huán)境及設(shè)置
16.2.5 接口函數(shù)的調(diào)用
16.3 小結(jié)
參考文獻(xiàn)
決策樹是一樹狀結(jié)構(gòu),它的每一個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類,非葉節(jié)點(diǎn)對(duì)應(yīng)著在某個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn),多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。構(gòu)造決策樹的核心問題是在每一步如何選擇適當(dāng)?shù)膶傩詫?duì)樣本進(jìn)行拆分。對(duì)一個(gè)分類問題,從已知類標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出決策樹是一個(gè)自上而下分而治之的過程。
本節(jié)將詳細(xì)介紹ID3算法,其也是最經(jīng)典的決策樹分類算法。
1.ID3算法簡介及基本原理
ID3算法基于信息熵來選擇最 佳的測試屬性,它選擇當(dāng)前樣本集中具有最大信息增益值的屬性作為測試屬性;樣本集的劃分則依據(jù)測試屬性的取值進(jìn)行,測試屬性有多少個(gè)不同的取值就將樣本集劃分為多少個(gè)子樣本集,同時(shí)決策樹上相應(yīng)于該樣本集的節(jié)點(diǎn)長出新的葉子節(jié)點(diǎn)。ID3算法根據(jù)信息論的理論,采用劃分后樣本集的不確定性作為衡量劃分好壞的標(biāo)準(zhǔn),用信息增益值度量不確定性:信息增益值越大,不確定性越小。因此,ID3算法在每個(gè)非葉節(jié)點(diǎn)選擇信息增益最大的屬性作為測試屬性,這樣可以得到當(dāng)前情況下最純的拆分,從而得到較小的決策樹。