定 價(jià):55 元
叢書(shū)名:大數(shù)據(jù)與商務(wù)智能系列
- 作者:謝笑盈
- 出版時(shí)間:2023/3/1
- ISBN:9787121452383
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:280
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)首先簡(jiǎn)要介紹了大數(shù)據(jù)分析與挖掘的相關(guān)概念,以及R語(yǔ)言的基礎(chǔ)知識(shí),以此來(lái)幫助讀者了解、使用R語(yǔ)言;其次詳細(xì)介紹了探索性數(shù)據(jù)分析、數(shù)據(jù)采集,以此來(lái)幫助讀者了解數(shù)據(jù)的基本分析方法和數(shù)據(jù)的獲取方法;然后著重介紹了目前主流的數(shù)據(jù)挖掘算法——時(shí)間序列算法、線性回歸算法、分類(lèi)算法、關(guān)聯(lián)算法、聚類(lèi)算法,從算法的原理到如何使用R語(yǔ)言進(jìn)行算法實(shí)現(xiàn)都進(jìn)行了詳細(xì)的介紹并提供了實(shí)操代碼,以此幫助讀者學(xué)習(xí)數(shù)據(jù)挖掘及使用R語(yǔ)言完成數(shù)據(jù)挖掘任務(wù);最后通過(guò)6個(gè)旅游行業(yè)的實(shí)際案例來(lái)幫助讀者將學(xué)習(xí)到的知識(shí)運(yùn)用到真實(shí)的業(yè)務(wù)場(chǎng)景中,并融會(huì)貫通整個(gè)知識(shí)體系。 本書(shū)無(wú)須讀者具備R語(yǔ)言和大數(shù)據(jù)分析與挖掘的基礎(chǔ)知識(shí)。無(wú)論是R語(yǔ)言初學(xué)者,還是熟練的R語(yǔ)言用戶(hù),都能從本書(shū)中找到有用的內(nèi)容。本書(shū)既可以作為一本學(xué)習(xí)R語(yǔ)言的教材,也可以作為大數(shù)據(jù)分析與挖掘的工具書(shū)。
謝笑盈:統(tǒng)計(jì)學(xué)博士、副教授、碩士生導(dǎo)師、澳大利亞科廷大學(xué)訪問(wèn)學(xué)者,研究方向?yàn)榇髷?shù)據(jù)統(tǒng)計(jì)分析方法與應(yīng)用。近5年來(lái),主持完成國(guó)家社科基金項(xiàng)目1項(xiàng),國(guó)家統(tǒng)計(jì)局重點(diǎn)項(xiàng)目1項(xiàng);以第一作者或通訊作者身份發(fā)表中科院SCI1區(qū)TOP論文1篇、SCI2區(qū)TOP論文1篇、ESI高被引論文1篇、EI檢索論文3篇,其他中文核心以上刊物論文5篇;指導(dǎo)學(xué)生獲得全國(guó)大學(xué)生市場(chǎng)調(diào)查與分析大賽總決賽三等獎(jiǎng)1次、浙江省大學(xué)生市場(chǎng)調(diào)查與分析大賽一等獎(jiǎng)2次、浙江省金融創(chuàng)新大賽一等獎(jiǎng)1次。
第1章 大數(shù)據(jù)分析與挖掘概論 1
1.1 大數(shù)據(jù)分析與挖掘 1
1.1.1 大數(shù)據(jù)定義 1
1.1.2 大數(shù)據(jù)分析與挖掘的概念 2
1.2 大數(shù)據(jù)分析與挖掘流程 3
1.2.1 數(shù)據(jù)獲取 3
1.2.2 數(shù)據(jù)預(yù)處理 3
1.2.3 數(shù)據(jù)分析 4
1.2.4 數(shù)據(jù)解釋 5
1.3 大數(shù)據(jù)分析與挖掘應(yīng)用 5
1.3.1 優(yōu)化任務(wù) 5
1.3.2 預(yù)測(cè)任務(wù) 5
1.3.3 分類(lèi)任務(wù) 5
1.3.4 識(shí)別任務(wù) 6
第2章 R語(yǔ)言編程基礎(chǔ) 7
2.1 R語(yǔ)言的安裝及配置 7
2.1.1 R語(yǔ)言的獲取和安裝 8
2.1.2 RStudio的獲取和安裝 9
2.2 界面與菜單 12
2.2.1 RGui界面 12
2.2.2 RStudio界面 12
2.3 變量與數(shù)據(jù)類(lèi)型 15
2.3.1 變量 15
2.3.2 數(shù)據(jù)類(lèi)型 15
2.4 數(shù)據(jù)結(jié)構(gòu) 17
2.4.1 向量 17
2.4.2 數(shù)組 19
2.4.3 矩陣 21
2.4.4 列表 22
2.4.5 數(shù)據(jù)框 23
2.4.6 因子 25
2.5 控制語(yǔ)句 26
2.5.1 條件語(yǔ)句 26
2.5.2 循環(huán)語(yǔ)句 28
2.6 函數(shù) 30
2.6.1 內(nèi)置函數(shù) 30
2.6.2 自定義函數(shù) 33
第3章 數(shù)據(jù)預(yù)處理 35
3.1 數(shù)據(jù)表的基本操作 35
3.1.1 數(shù)據(jù)表保存 35
3.1.2 數(shù)據(jù)表讀取 37
3.1.3 選取子集 40
3.1.4 連接數(shù)據(jù)庫(kù) 42
3.2 數(shù)據(jù)分組、分割、合并和變形 44
3.2.1 數(shù)據(jù)分組 44
3.2.2 數(shù)據(jù)分割 46
3.2.3 數(shù)據(jù)合并 47
3.2.4 數(shù)據(jù)變形 49
3.3 缺失值、異常值、重復(fù)值處理 52
3.3.1 缺失值 52
3.3.2 異常值 59
3.3.3 重復(fù)值 61
3.4 數(shù)據(jù)類(lèi)型的轉(zhuǎn)換 62
3.4.1 判斷數(shù)據(jù)類(lèi)型函數(shù) 62
3.4.2 轉(zhuǎn)換數(shù)據(jù)類(lèi)型的函數(shù) 63
3.5 提取字符 64
3.5.1 截取字符 64
3.5.2 正則表達(dá)式 65
第4章 探索性數(shù)據(jù)分析 69
4.1 描述性統(tǒng)計(jì)方法 69
4.1.1 常用統(tǒng)計(jì)指標(biāo) 69
4.1.2 數(shù)據(jù)總結(jié) 70
4.2 數(shù)據(jù)可視化 72
4.2.1 箱線圖 72
4.2.2 直方圖 74
4.2.3 散點(diǎn)圖 75
4.2.4 餅圖 77
第5章 數(shù)據(jù)采集 80
5.1 網(wǎng)絡(luò)數(shù)據(jù)采集的原理 80
5.1.1 網(wǎng)頁(yè)通信的過(guò)程 80
5.1.2 請(qǐng)求數(shù)據(jù)的方法 87
5.1.3 網(wǎng)頁(yè)的組成元素 88
5.2 數(shù)據(jù)采集入門(mén) 90
5.2.1 數(shù)據(jù)采集常用包概述 90
5.2.2 數(shù)據(jù)采集前的準(zhǔn)備 91
5.2.3 編寫(xiě)第一個(gè)數(shù)據(jù)采集 92
5.3 使用常用的R包采集數(shù)據(jù) 96
5.3.1 使用RCurl包獲取網(wǎng)絡(luò)數(shù)據(jù) 96
5.3.2 使用rvest包獲取網(wǎng)絡(luò)數(shù)據(jù) 98
5.3.3 使用httr包獲取網(wǎng)絡(luò)數(shù)據(jù) 106
5.4 爬蟲(chóng)限制處理 107
5.4.1 解決IP限制問(wèn)題 108
5.4.2 驗(yàn)證碼處理 109
5.4.3 登錄問(wèn)題處理 110
第6章 時(shí)間序列算法 111
6.1 時(shí)間序列算法概述 111
6.1.1 時(shí)序?qū)ο?113
6.1.2 時(shí)序平滑處理 113
6.1.3 時(shí)序季節(jié)性分解 116
6.2 時(shí)序指數(shù)模型 118
6.3 時(shí)序ARIMA模型 122
第7章 線性回歸算法 129
7.1 一元線性回歸模型 129
7.2 多項(xiàng)式回歸模型 131
7.3 多元線性回歸模型 133
第8章 分類(lèi)算法 136
8.1 Logistic回歸 136
8.1.1 Logistic回歸算法原理 137
8.1.2 邏輯回歸算法應(yīng)用 139
8.2 決策樹(shù) 143
8.2.1 決策樹(shù)算法原理 143
8.2.2 決策樹(shù)算法應(yīng)用 147
8.3 支持向量機(jī) 150
8.3.1 支持向量機(jī)算法原理 151
8.3.2 支持向量機(jī)算法應(yīng)用 155
8.4 樸素貝葉斯 157
8.4.1 貝葉斯定理 157
8.4.2 最大似然估計(jì) 157
8.4.3 樸素貝葉斯分類(lèi)算法原理 158
8.4.4 樸素貝葉斯分類(lèi)算法應(yīng)用 159
8.5 人工神經(jīng)網(wǎng)絡(luò) 166
8.5.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 166
8.5.2 感知器和人工神經(jīng)元模型 167
8.5.3 前饋神經(jīng)網(wǎng)絡(luò) 168
8.5.4 人工神經(jīng)網(wǎng)絡(luò)算法應(yīng)用 169
8.6 隨機(jī)森林 177
8.6.1 隨機(jī)森林算法原理 177
8.6.2 隨機(jī)森林算法應(yīng)用 178
8.7 XGBoost算法 183
8.7.1 XGBoost算法的原理 184
8.7.2 XGBoost算法應(yīng)用 187
第9章 關(guān)聯(lián)算法 189
9.1 關(guān)聯(lián)算法概述 189
9.1.1 相關(guān)名詞 190
9.1.2 關(guān)聯(lián)規(guī)則及頻繁項(xiàng)集的產(chǎn)生 190
9.2 Apriori算法 191
9.2.1 Apriori算法概述 191
9.2.2 先驗(yàn)原理 191
9.2.3 連接步和剪枝步 192
9.2.4 Apriori算法流程 193
9.2.5 Apriori算法實(shí)例 193
9.3 ECLAT算法 196
9.3.1 ECLAT算法概述 196
9.3.2 ECLAT算法流程 198
9.3.3 ECLAT算法實(shí)例 198
第10章 聚類(lèi)算法 202
10.1 聚類(lèi)算法概述 202
10.1.1 聚類(lèi)算法的類(lèi)型 202
10.1.2 聚類(lèi)算法評(píng)估的特點(diǎn) 202
10.2 K均值聚類(lèi)算法 203
10.2.1 劃分方法概述 203
10.2.2 K均值聚類(lèi)算法的優(yōu)缺點(diǎn) 203
10.2.3 K均值聚類(lèi)算法的流程 203
10.2.4 K均值聚類(lèi)分析案例 204
10.3 凝聚式層次聚類(lèi)算法 205
10.3.1 凝聚式層次聚類(lèi)概述 205
10.3.2 凝聚式層次聚類(lèi)算法流程 207
10.3.3 凝聚式層次聚類(lèi)算法實(shí)例 209
【應(yīng)用案例1】景點(diǎn)輿情數(shù)據(jù)采集 211
【應(yīng)用案例2】旅游電商平臺(tái)數(shù)據(jù)采集 218
【應(yīng)用案例3】旅游網(wǎng)站景點(diǎn)路線推薦 233
【應(yīng)用案例4】旅游城市和景點(diǎn)的負(fù)荷預(yù)測(cè) 236
【應(yīng)用案例5】精品旅行服務(wù)成單預(yù)測(cè) 239
【應(yīng)用案例6】航班延誤預(yù)測(cè) 259