本書由淺入深,內(nèi)容豐富。全書共11章,主要內(nèi)容包括第1章R語言數(shù)據(jù)分析概述、第2章R語言數(shù)據(jù)操作基礎(chǔ)、第3章數(shù)據(jù)讀寫、第4章數(shù)據(jù)預(yù)處理、第5章數(shù)據(jù)的描述統(tǒng)計(jì)分析、第6章 數(shù)據(jù)相關(guān)性分析、第7章 R語言可視化基礎(chǔ)、第8章 高級可視化工具、第9章聚類分析、第10章關(guān)聯(lián)規(guī)則、第11章分類及預(yù)測。
本書可作為高等院校數(shù)據(jù)科學(xué)相關(guān)專業(yè)的教材,也可作為初級數(shù)據(jù)分析進(jìn)行數(shù)據(jù)分析學(xué)習(xí)的指導(dǎo)書。
1.R語言實(shí)戰(zhàn)派專家,又一力作
2.數(shù)據(jù)分析、數(shù)據(jù)管理及數(shù)據(jù)可視化,核心技能全掌握
3.配備視頻,邊學(xué)邊做,數(shù)據(jù)分析輕松上手
4.本書可作為高等院校數(shù)據(jù)科學(xué)相關(guān)專業(yè)的教材,也可作為初級數(shù)據(jù)分析進(jìn)行數(shù)據(jù)分析學(xué)習(xí)的指導(dǎo)書。
謝佳標(biāo),WOT 互聯(lián)網(wǎng) 大數(shù)據(jù)技術(shù)峰會演講嘉賓,歷屆中國R語言大會演講嘉賓,某知名科技公司高級數(shù)據(jù)分析師,8年以上數(shù)據(jù)挖掘建模工作實(shí)戰(zhàn)經(jīng)驗(yàn),部分研究成果曾獲得國家專利。 攥寫《R語言與數(shù)據(jù)挖掘》、《R語言游戲數(shù)據(jù)分析》書籍。主要利用R語言進(jìn)行大數(shù)據(jù)的挖掘和可視化工作。有豐富的利用R語言進(jìn)行數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗(yàn),同時(shí)也是公司R語言和數(shù)據(jù)分析培訓(xùn)的內(nèi)部講師。
目錄
第 1章 R語言數(shù)據(jù)分析概述1
1.1認(rèn)識數(shù)據(jù)分析1
1.1.1為什么要對數(shù)據(jù)做分析1
1.1.2數(shù)據(jù)分析的流程1
1.2R語言的簡介及安裝2
1.2.1R語言簡介2
1.2.2R語言的安裝3
1.2.3其他輔助工具3
1.2.4R語言快速上手4
1.3小結(jié)9
1.4本章練習(xí)9
第 2章 R語言數(shù)據(jù)操作基礎(chǔ)11
2.1R語言數(shù)據(jù)類型11
2.1.1數(shù)據(jù)類型判斷及轉(zhuǎn)換11
2.1.2日期類型數(shù)據(jù)處理12
2.2R語言數(shù)據(jù)對象16
2.2.1.向量16
2.2.2.矩陣和數(shù)組20
2.2.3因子22
2.2.4列表和數(shù)據(jù)框24
2.3文本處理25
2.3.1基礎(chǔ)文本處理25
2.3.2stringr擴(kuò)展包33
2.4小結(jié)37
2.5本章練習(xí)37
第3章 R語言數(shù)據(jù)讀寫39
3.1文本文件讀寫39
3.1.1base包39
3.1.2readr包43
3.1.3data.table包46
3.2Excel文件讀寫48
3.2.1xlsx包50
3.2.2XLConnect包54
3.2.3openxlsx包56
3.2.4readxl包59
3.3數(shù)據(jù)庫文件讀寫60
3.3.1RODBC包61
3.3.2RMySQL包65
3.4本章小結(jié)67
3.5本章練習(xí)67
第4章 數(shù)據(jù)基本管理68
4.1數(shù)據(jù)去重68
4.2 數(shù)據(jù)排序69
4.3 數(shù)據(jù)篩選71
4,4 數(shù)據(jù)合并73
4.5數(shù)據(jù)關(guān)聯(lián)75
4.6 數(shù)據(jù)轉(zhuǎn)換78
4.7融合重鑄79
4.8數(shù)據(jù)聚合81
4.9數(shù)據(jù)分組83
4.10本章小結(jié)84
4.11本章練習(xí)85
第5章 數(shù)據(jù)預(yù)處理86
5.1 數(shù)據(jù)抽樣86
5.1.1數(shù)據(jù)抽樣的必要性86
5.1.2類失衡處理方法:SMOTE86
5.1.3數(shù)據(jù)隨機(jī)抽樣:sample函數(shù)87
5.1.4數(shù)據(jù)等比抽樣:createDataPartition函數(shù)88
5.1.5用于交叉驗(yàn)證的樣本抽樣89
5.2數(shù)據(jù)清洗90
5.2.1缺失值判斷及處理90
5.2.2異常值判斷處理95
5.3數(shù)據(jù)變換99
5.3.1數(shù)據(jù)分箱99
5.3.2數(shù)據(jù)標(biāo)準(zhǔn)化100
5.4數(shù)據(jù)啞變量處理102
5.5本章小結(jié)104
5.6本章練習(xí)104
第6章 R語言重要繪圖技術(shù)105
6.1圖形三要素105
6.1.1 顏色元素105
6.1.2 文字元素108
6.1.3 點(diǎn)線元素109
6.2低級繪圖函數(shù)111
6.2.1標(biāo)題111
6.2.2坐標(biāo)軸112
6.2.3圖例113
6.2.4網(wǎng)格線115
6.2.5點(diǎn)116
6.2.6文字116
6.2.7線117
6.3高級繪圖函數(shù)119
6.3.1散點(diǎn)圖120
6.3.2氣泡圖122
6.3.3線圖123
6.3.4柱狀圖124
6.3.5餅圖125
6.3.6直方圖和密度圖125
6.3.7箱線圖127
6.4本章小結(jié)127
6.5本章練習(xí)127
第7章 高級繪圖工具129
7.1 lattice繪圖工具129
7.1.1 繪圖特色129
7.1.2 基本圖形135
7.2 ggplot2繪圖工具139
7.1.1 從qplot開始139
7.1.2 ggplot作圖146
7.1.3 ggplot2擴(kuò)展包149
7.3 交互式繪圖工具152
7.3.1 rCharts包152
7.3.2 recharts包154
7.3.3 rbokeh包162
7.3.4 plotly包164
7.4 本章小結(jié)166
7.5 本章練習(xí)166
第8章 聚類分析168
8.1概述168
8.2聚類距離度量169
8.3層次聚類172
8.3.1層次聚類原理172
8.3.2R語言實(shí)現(xiàn)173
8.3.3聚類樹形圖可視化177
8.3.4比較聚類樹形圖186
8.4K-均值聚類190
8.4.1K-均值聚類原理190
8.4.2R語言實(shí)現(xiàn)190
8.5K-中心點(diǎn)聚類192
8.6密度聚類195
8.6.1密度聚類原理195
8.6.2R語言實(shí)現(xiàn)196
8.7集群評估及驗(yàn)證201
8.7.1估計(jì)聚類趨勢201
8.7.2確定數(shù)據(jù)集中的簇?cái)?shù)202
8.7.3集群驗(yàn)證204
8.8本章小結(jié)205
8.9本章練習(xí)205
第9章 理解回歸分析207
9.1簡單線性回歸207
9.1.1簡單線性回歸原理207
9.1.2簡單線性回歸R語言實(shí)現(xiàn)209
9.1.3模型診斷及預(yù)測211
9.1.4指數(shù)變換212
9.1.5多項(xiàng)式回歸213
9.1.6穩(wěn)健線性回歸215
9.2多元線性回歸216
9.3自變量有定性變量的回歸217
9.4逐步回歸219
9.5多重共線性分析221
9.6線性回歸的正則化222
9.6.1為什么要使用正則化222
9.6.2嶺回歸的原理223
9.6.3Lasso回歸的原理224
9.6.4glmnet包簡介225
9.6.5綜合案例228
9.7邏輯回歸230
9.7.1邏輯回歸基本原理230
9.7.2邏輯回歸的R實(shí)現(xiàn)231
9.8本章小結(jié)234
9.9本章練習(xí)234
10.1決策樹概述236
10.2決策樹基本原理237
10.3ID3算法237
10.3.1C4.5算法240
10.3.2CART算法241
10.4R語言實(shí)現(xiàn)及案例243
10.4.1R語言實(shí)現(xiàn)243
10.4.2C5.0案例243
10.4.3CART案例247
10.4.4條件推理決策樹案例254
10.4.5繪制決策邊界256
10.5集成學(xué)習(xí)與隨機(jī)森林258
10.6本章小結(jié)260
10.7本章練習(xí)260
第 11章 神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)262
11.1理解神經(jīng)網(wǎng)絡(luò)262
11.1.1激活函數(shù)262
11.1.2網(wǎng)絡(luò)結(jié)構(gòu)265
11.1.3人工神經(jīng)網(wǎng)絡(luò)的主要類型265
11.2神經(jīng)網(wǎng)絡(luò)的R語言實(shí)現(xiàn)266
11.3基于神經(jīng)網(wǎng)絡(luò)進(jìn)行類別預(yù)測269
11.4理解支持向量機(jī)275
11.5支持向量機(jī)的R語言實(shí)現(xiàn)276
11.6基于支持向量機(jī)進(jìn)行類別預(yù)測278
11.7本章小結(jié)285
11.8本章練習(xí)285
12.1模型性能評估287
12.1.1數(shù)值預(yù)測評估方法287
12.1.2概率預(yù)測評估方法289
12.2模型參數(shù)優(yōu)化298
12.2.1訓(xùn)練集、驗(yàn)證集、測試集的引入298
12.2.2K折交叉驗(yàn)證301
12.2.3網(wǎng)格搜索302
12.3本章小結(jié)304
12.4本章練習(xí)304