Python數(shù)據(jù)挖掘?qū)崙?zhàn)
定 價(jià):79 元
- 作者:方小敏
- 出版時(shí)間:2021/1/1
- ISBN:9787121404610
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:244
- 紙張:
- 版次:01
- 開本:16開
從解決工作實(shí)際問題出發(fā),提煉總結(jié)工作中Python 常用的數(shù)據(jù)處理、數(shù)據(jù)挖掘?qū)崙?zhàn)方法與技巧。本書通俗易懂地介紹數(shù)據(jù)挖掘過程中可能用到的回歸模型、分類模型、聚類、關(guān)聯(lián)、時(shí)間序列分析等技術(shù)。在不影響學(xué)習(xí)理解的前提下,盡可能地避免使用晦澀難懂的Python 編程、統(tǒng)計(jì)術(shù)語或模型公式。 本書定位是帶領(lǐng)Python 數(shù)據(jù)分析初學(xué)者入門,并能解決學(xué)習(xí)、工作中大部分的問題或需求。入門后如還需要進(jìn)一步進(jìn)階學(xué)習(xí),可自行擴(kuò)展閱讀相關(guān)書籍或資料,學(xué)習(xí)是永無止境的,正所謂"師傅領(lǐng)進(jìn)門,修行在個(gè)人”。
方小敏,資深機(jī)器學(xué)習(xí)工程師;中山大學(xué)數(shù)字治理研究中心技術(shù)顧問;曾服務(wù)于騰訊等知名互聯(lián)網(wǎng)企業(yè),熟練掌握Python、R、Spark、Hive、TensorFlow等工具進(jìn)行機(jī)器學(xué)習(xí)。
第1章 數(shù)據(jù)挖掘基礎(chǔ) /1
1.1 數(shù)據(jù)挖掘是什么 /1
1.1.1 數(shù)據(jù)挖掘算法的類型 /2
1.1.2 數(shù)據(jù)挖掘需要的技能 /4
1.1.3 數(shù)據(jù)挖掘的常見誤區(qū) /6
1.2 數(shù)據(jù)挖掘的常見問題 /8
1.2.1 預(yù)測問題 /9
1.2.2 分類問題 /9
1.2.3 聚類問題 /11
1.2.4 關(guān)聯(lián)問題 /12
1.3 數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程 /13
1.3.1 商業(yè)理解 /14
1.3.2 數(shù)據(jù)理解 /14
1.3.3 數(shù)據(jù)準(zhǔn)備 /14
1.3.4 模型構(gòu)建 /15
1.3.5 模型評估 /15
1.3.6 模型部署 /15
1.4 數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別 /16
1.4.1 數(shù)據(jù)分析 /16
1.4.2 數(shù)據(jù)挖掘 /17
第2章 回歸模型 /18
2.1 回歸模型簡介 /18
2.2 相關(guān)分析 /20
2.2.1 依存關(guān)系 /20
2.2.2 相關(guān)系數(shù)的計(jì)算 /21
2.2.3 相關(guān)系數(shù)的方向與大小 /22
2.2.4 居民購物習(xí)慣相關(guān)分析案例 /23
2.3 簡單線性回歸分析 /25
2.3.1 線性回歸方程解讀 /25
2.3.2 使用最小二乘法求解回歸方程 /26
2.3.3 使用廣告投放費(fèi)用預(yù)測銷售額案例 /28
2.4 多重線性回歸分析 /33
2.4.1 使用最小二乘法求解多重線性回歸方程 /33
2.4.2 使用廣告投放費(fèi)用與客流量預(yù)測銷售額案例 /36
2.5 一元非線性回歸 /39
2.5.1 一元非線性回歸模型 /39
2.5.2 一元非線性回歸模型求解 /40
2.5.3 使用上線天數(shù)預(yù)測活躍用戶數(shù)案例 /41
第3章 分類模型 /48
3.1 分類模型基礎(chǔ) /48
3.1.1 分類模型的建模五步驟 /49
3.1.2 分類模型評估指標(biāo) /50
3.1.3 K折交叉驗(yàn)證 /53
3.2 KNN模型 /54
3.2.1 KNN模型原理 /54
3.2.2 使用商戶數(shù)據(jù)預(yù)測是否續(xù)約案例 /55
3.3 貝葉斯分類 /64
3.3.1 貝葉斯分類的核心概念 /65
3.3.2 樸素貝葉斯分類 /67
3.3.3 樸素貝葉斯分類算法在離散型特征上的求解 /68
3.3.4 樸素貝葉斯分類算法在連續(xù)型特征上的求解 /71
3.3.5 使用議員在議案上的投票記錄預(yù)測其所屬黨派案例 /83
3.3.6 根據(jù)商戶數(shù)據(jù)預(yù)測其是否續(xù)約案例 /85
3.3.7 根據(jù)新聞文本預(yù)測其所屬分類案例 /86
3.4 決策樹 /89
3.4.1 決策樹分類 /89
3.4.2 決策樹分類算法原理 /91
3.4.3 使用高中生基本信息預(yù)測其是否計(jì)劃升學(xué)案例 /93
3.4.4 案例解讀 /102
3.5 隨機(jī)森林 /104
3.5.1 隨機(jī)森林的特點(diǎn) /104
3.5.2 網(wǎng)格搜索 /106
3.5.3 使用隨機(jī)森林算法提升決策樹算法效果案例 /107
3.6 支持向量機(jī) /111
3.6.1 支持向量機(jī)的核心原理 /111
3.6.2 根據(jù)葡萄酒成分?jǐn)?shù)據(jù)預(yù)測其分類案例 /116
3.7 邏輯回歸 /118
3.7.1 邏輯回歸的核心概念 /118
3.7.2 邏輯回歸的數(shù)學(xué)推導(dǎo) /119
3.7.3 使用住戶信息預(yù)測房屋是否屋主所有案例 /120
第4章 特征工程 /124
4.1 描述性統(tǒng)計(jì)分析 /125
4.2 數(shù)據(jù)標(biāo)準(zhǔn)化 /127
4.2.1 Min-Max標(biāo)準(zhǔn)化 /128
4.2.2 Z-Score 標(biāo)準(zhǔn)化 /129
4.2.3 Normalizer歸一化 /131
4.3 數(shù)據(jù)變換 /132
4.3.1 二值化 /132
4.3.2 分桶 /135
4.3.3 冪變換 /138
4.4 缺失值處理 /139
4.4.1 刪除缺失值所在的行 /140
4.4.2 均值/眾數(shù)/中值填充 /141
4.4.3 模型填充 /142
4.5 降維 /143
4.5.1 主成分分析 /143
4.5.2 因子分析 /154
第5章 聚類算法 /160
5.1 K均值算法 /161
5.1.1 K均值算法的核心概念 /161
5.1.2 電信套餐制定案例 /164
5.2 DBSCAN算法 /169
5.2.1 DBSCAN算法核心概念 /170
5.2.2 用戶;顒(dòng)區(qū)域挖掘案例 /173
5.3 層次聚類算法 /175
5.3.1 演示:聚類層次的計(jì)算過程 /175
5.3.2 基于運(yùn)營商基站信息挖掘商圈案例 /178
第6章 關(guān)聯(lián)算法 /184
6.1 關(guān)聯(lián)規(guī)則 /185
6.1.1 關(guān)聯(lián)規(guī)則的核心概念 /186
6.1.2 超市關(guān)聯(lián)規(guī)則挖掘案例 /188
6.1.3 超市關(guān)聯(lián)規(guī)則解讀 /192
6.2 協(xié)同過濾 /192
6.2.1 協(xié)同過濾算法的實(shí)現(xiàn) /193
6.2.2 安裝scikit-surprise模塊 /196
6.2.3 基于電影數(shù)據(jù)的協(xié)同過濾案例 /197
6.3 奇異值分解 /201
第7章 時(shí)間序列 /206
7.1 時(shí)間序列分解 /206
7.1.1 非季節(jié)性時(shí)間序列分解 /207
7.1.2 季節(jié)性時(shí)間序列 /211
7.2 序列預(yù)測 /214
7.2.1 把不平穩(wěn)的時(shí)間序列轉(zhuǎn)換成平穩(wěn)的時(shí)間序列 /214
7.2.2 自回歸模型 /219
7.2.3 移動(dòng)平均模型 /220
7.2.4 自回歸移動(dòng)平均模型 /221
第8章 模型持久化 /226
8.1 保存模型 /226
8.2 恢復(fù)模型 /228
8.3 管道模型 /229