本書作為 CDA LEVEL Ⅱ考試教材,打破傳統(tǒng)的知識整合模式,從 EDIT(探索、診斷、指導(dǎo)和工具)數(shù)字化工作模型的角度進(jìn)行講解,在介紹知識概念的同時,還講解了在進(jìn)行商業(yè)策略數(shù)據(jù)分析時應(yīng)遵循的整體思維和思考方式,以達(dá)到業(yè)務(wù)宏觀分析與用戶微觀洞察相結(jié)合、使用科學(xué)的方式進(jìn)行數(shù)據(jù)分析的教學(xué)目標(biāo)。本書分為 5 部分,分別講解 EDIT 模型、數(shù)據(jù)處理與可視化、根因分析、業(yè)務(wù)優(yōu)化,以及數(shù)據(jù)治理與數(shù)據(jù)模型管理。其中第一部分就是第 1 章的內(nèi)容,第二部分包含第 2 章和第 3 章,第三部分包含第 4~8 章,第四部分包含第 9~11 章,第五部分包含第 12~14 章,每章分別針對當(dāng)前部分的問題進(jìn)行分析與處理。
CDA數(shù)據(jù)科學(xué)研究院簡介2013年,大數(shù)據(jù)行業(yè)方興未艾,CDA數(shù)據(jù)科學(xué)研究院孕育而生,是國內(nèi)率先成立的專注于數(shù)據(jù)科學(xué)領(lǐng)域的專業(yè)研究團(tuán)隊。CDA數(shù)據(jù)科學(xué)研究院匯集數(shù)據(jù)行業(yè)專家,團(tuán)隊具有專業(yè)的學(xué)術(shù)素養(yǎng)、精湛的研究水平、扎實的企業(yè)實戰(zhàn)經(jīng)驗,豐富的行業(yè)資源,通過對各類企業(yè)、社會組織等進(jìn)行全面、系統(tǒng)、深入的調(diào)查和訪問,從而獲得緊跟技術(shù)發(fā)展的經(jīng)驗與數(shù)據(jù),并結(jié)合數(shù)據(jù)行業(yè)的未來發(fā)展方向進(jìn)行系統(tǒng)的研究,不斷研發(fā)新的知識體系和技術(shù)應(yīng)用。
目錄
第1 章 EDIT 模型概述. 1
1.1 探索階段 4
1.2 診斷階段 5
1.3 指導(dǎo)階段 8
1.4 工具支持 9
1.5 本章練習(xí)題 10
第2 章 數(shù)據(jù)處理 12
2.1 使用pandas 讀取結(jié)構(gòu)化數(shù)據(jù) .13
2.1.1 讀取數(shù)據(jù) .14
2.1.2 寫出數(shù)據(jù) .17
2.2 數(shù)據(jù)整合 17
2.2.1 行、列操作 .17
2.2.2 條件查詢 .21
2.2.3 橫向連接 .24
2.2.4 縱向合并 .27
2.2.5 排序 .30
2.2.6 分組匯總 .31
2.2.7 拆分列 .35
2.2.8 賦值與條件賦值 .36
2.3 數(shù)據(jù)清洗 39
2.3.1 重復(fù)值處理 .39
2.3.2 缺失值處理 .40
2.4 本章練習(xí)題 43
第3 章 指標(biāo)體系與數(shù)據(jù)可視化. 45
3.1 Python 可視化 45
3.1.1 Matplotlib 繪圖庫 .45
3.1.2 Seaborn 繪圖庫.54
3.2 描述性統(tǒng)計分析與繪圖 60
3.2.1 描述性統(tǒng)計進(jìn)行數(shù)據(jù)探索 .60
3.2.2 制作報表與統(tǒng)計制圖 .69
3.2.3 制圖的步驟 .76
3.3 指標(biāo)體系 81
3.3.1 建立指標(biāo)標(biāo)準(zhǔn) .82
3.3.2 什么是指標(biāo)體系 .83
3.3.3 構(gòu)建指標(biāo)體系的意義 .85
3.3.4 構(gòu)建指標(biāo)庫 .86
3.3.5 搭建管理分析視圖和指標(biāo)應(yīng)用模式 .89
3.4 本章練習(xí)題 90
第4 章 數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理. 92
4.1 數(shù)據(jù)采集方法 92
4.1.1 市場研究中的數(shù)據(jù) .92
4.1.2 概率抽樣方法 .93
4.1.3 非概率抽樣方法 .99
4.1.4 概率抽樣和非概率抽樣的比較 .101
4.2 市場調(diào)研和數(shù)據(jù)錄入 101
4.2.1 市場調(diào)研流程 .101
4.2.2 市場調(diào)研目標(biāo)設(shè)定 .102
4.2.3 市場調(diào)研前的準(zhǔn)備工作 .102
4.2.4 實施調(diào)研 .109
4.3 數(shù)據(jù)預(yù)處理基礎(chǔ) 110
4.3.1 數(shù)據(jù)預(yù)處理基本步驟 .110
4.3.2 錯誤數(shù)據(jù)識別與處理 .111
4.3.3 連續(xù)型變量離群值識別與處理 .116
4.3.4 分類型變量概化處理 .117
4.3.5 缺失值處理 .118
4.3.6 連續(xù)型變量分布形態(tài)轉(zhuǎn)換 .122
4.3.7 連續(xù)型變量中心標(biāo)準(zhǔn)化或歸一化 .122
4.3.8 變量降維 .123
4.3.9 WoE 轉(zhuǎn)換 124
4.4 本章練習(xí)題 125
第5 章 宏觀業(yè)務(wù)分析方法 129
5.1 矩陣分析法 129
5.2 連續(xù)型變量降維 134
5.2.1 方法概述 .135
5.2.2 變量篩選 .136
5.2.3 維度歸約 .136
5.3 主成分分析法 137
5.3.1 主成分分析簡介 .137
5.3.2 主成分分析原理 .138
5.3.3 主成分分析的運用 .141
5.3.4 實戰(zhàn)案例:在Python 中實現(xiàn)主成分分析 .142
5.3.5 基于主成分的冗余變量篩選 .145
5.4 因子分析 146
5.4.1 因子分析模型 .146
5.4.2 因子分析算法 .148
5.4.3 實戰(zhàn)案例:在Python 中實現(xiàn)因子分析 .151
5.5 多維尺度分析 155
5.6 本章練習(xí)題 159
第6 章 用戶標(biāo)簽體系與用戶畫像 165
6.1 標(biāo)簽體系的整體框架 167
6.2 標(biāo)簽的分類 168
6.2.1 從研究客體的數(shù)據(jù)類型角度分類 .168
6.2.2 從標(biāo)簽的時態(tài)角度分類 .170
6.2.3 從標(biāo)簽的加工角度分類 .171
6.2.4 業(yè)務(wù)指標(biāo)與用戶標(biāo)簽的關(guān)系 .175
6.3 用戶畫像 181
6.3.1 細(xì)分市場與STP 模型 182
6.3.2 快速入手用戶畫像 .182
6.3.3 用戶分群的發(fā)展歷程 .185
6.3.4 用戶的決策進(jìn)程 .186
6.3.5 馬斯洛需求理論 .187
6.3.6 用戶消費的成本與收益 .187
6.3.7 用戶細(xì)分的方法 .188
6.3.8 基于用戶分群的精準(zhǔn)營銷 .190
6.3.9 標(biāo)簽與數(shù)據(jù)科學(xué)的過程 .191
6.4 實戰(zhàn)案例:用Python 實現(xiàn)用戶畫像 .192
6.4.1 使用Python 進(jìn)行用戶畫像的基礎(chǔ)知識 .192
6.4.2 用戶畫像在診斷階段中的應(yīng)用 .192
6.4.3 樣本數(shù)據(jù)集介紹 .193
6.4.4 使用SQL 語句進(jìn)行數(shù)據(jù)處理 .195
6.4.5 使用Python 進(jìn)行用戶畫像 .198
6.5 本章練習(xí)題 202
第7 章 使用統(tǒng)計學(xué)方法進(jìn)行變量有效性測試 205
7.1 假設(shè)檢驗 205
7.1.1 假設(shè)檢驗的基本概念 .206
7.1.2 假設(shè)檢驗中的兩類錯誤 .207
7.1.3 假設(shè)檢驗與區(qū)間估計的聯(lián)系 .209
7.1.4 假設(shè)檢驗的基本步驟 .209
7.1.5 配對樣本t 檢驗211
7.2 方差分析 211
7.2.1 單因素方差分析 .212
7.2.2 多因素方差分析 .217
7.3 列聯(lián)表分析與卡方檢驗 220
7.3.1 列聯(lián)表 .220
7.3.2 卡方檢驗 .222
7.4 線性回歸 224
7.4.1 簡單線性回歸 .225
7.4.2 多元線性回歸 .227
7.4.3 多元線性回歸的變量篩選 .236
7.4.4 線性回歸模型的經(jīng)典假設(shè) .239
7.4.5 建立線性回歸模型的基本步驟 .248
7.5 Logistic 回歸 249
7.5.1 邏輯回歸的相關(guān)關(guān)系分析 .252
7.5.2 邏輯回歸模型及實現(xiàn) .253
7.5.3 邏輯回歸的極大似然估計 .264
7.5.4 模型評估 .266
7.5.5 因果推斷模型 .274
7.6 本章練習(xí)題 278
第8 章 使用時間序列分析方法做預(yù)報. 294
8.1 認(rèn)識時間序列 294
8.2 效應(yīng)分解法 295
8.2.1 時間序列的效應(yīng)分解 .296
8.2.2 時間序列3 種效應(yīng)的組合方式 .296
8.3 平穩(wěn)時間序列分析ARMA 模型 297
8.3.1 平穩(wěn)時間序列 .297
8.3.2 ARMA 模型 298
8.3.3 在Python 中進(jìn)行AR 建模 304
8.4 非平穩(wěn)時間序列分析ARIMA 模型 .310
8.4.1 差分與ARIMA 模型 .310
8.4.2 在Python 中進(jìn)行ARIMA 建模 313
8.5 ARIMA 建模方法總結(jié) 322
8.6 本章練習(xí)題 323
第9 章 用戶分群方法 327
9.1 用戶細(xì)分與聚類 327
9.1.1 用戶細(xì)分的重要意義 .327
9.1.2 用戶細(xì)分的不同商業(yè)主題 .328
9.2 聚類分析的基本概念 335
9.3 聚類模型的評估 336
9.3.1 輪廓系數(shù) .336
9.3.2 平方根標(biāo)準(zhǔn)誤差 .337
9.3.3 R2 .337
9.3.4 ARI 338
9.4 層次聚類 338
9.4.1 層次聚類的算法描述 .338
9.4.2 層次聚類分群數(shù)量的確定 .342
9.4.3 層次聚類應(yīng)用案例 .343
9.4.4 層次聚類的特點 .347
9.5 K-means 聚類算法 .347
9.5.1 K-means 聚類算法描述 .347
9.5.2 K-means 聚類算法的應(yīng)用:用戶細(xì)分 .348
9.6 聚類事后分析:決策樹應(yīng)用 356
9.6.1 決策樹的基本概念 .356
9.6.2 決策樹解讀用戶分群后的特征 .357
9.7 本章練習(xí)題 359
第10 章 業(yè)務(wù)流程分析與流程優(yōu)化 364
10.1 價值流程圖 364
10.2 對比測試 366
10.2.1 轉(zhuǎn)換漏斗 .366
10.2.2 對比測試 .367
10.3 本章練習(xí)題 371
第11 章 運籌優(yōu)化模型 373
11.1 線性規(guī)劃 373
11.2 整數(shù)規(guī)劃 380
11.3 二次規(guī)劃 386
11.4 本章練習(xí)題 .390
第12 章 數(shù)據(jù)治理 393
12.1 數(shù)據(jù)治理的驅(qū)動因素 393
12.2 數(shù)據(jù)治理體系 394
12.2.1 數(shù)據(jù)治理域 .395
12.2.2 數(shù)據(jù)管理域 .397
12.2.3 數(shù)據(jù)應(yīng)用域 .401
12.3 如何開展數(shù)據(jù)治理 404
12.3.1 準(zhǔn)確的定位數(shù)據(jù)治理 .404
12.3.2 明確數(shù)據(jù)應(yīng)用方向 .405
12.3.3 多層級全方位進(jìn)行治理 .406
12.4 本章練習(xí)題 406
第13 章 數(shù)據(jù)模型管理 408
13.1 數(shù)據(jù)分類 408
13.2 數(shù)據(jù)建模 411
13.2.1 數(shù)據(jù)架構(gòu)的基本概念 .411
13.2.2 數(shù)據(jù)模型介紹 .413
13.2.3 數(shù)據(jù)建;A(chǔ) .413
13.2.4 主題域分類 .414
13.2.5 概念模型 .414
13.2.6 邏輯模型 .415
13.2.7 物理模型 .416
13.3 數(shù)據(jù)建模案例 416
13.4 數(shù)據(jù)倉庫體系和ETL 419
13.5 本章練習(xí)題 423
第14 章 智能對話分析與預(yù)測 426
14.1 導(dǎo)入數(shù)據(jù) 430
14.2 數(shù)據(jù)探索 430
14.2.1 缺失值 .430
14.2.2 重復(fù)值 .431
14.2.3 異常值 .431
14.2.4 相關(guān)分析 .432
14.3 可視化展示 434
14.3.1 多變量圖 .434
14.3.2 回歸擬合圖 .434
14.3.3 聯(lián)合分布圖 .436
14.4 邏輯回歸模型 436
14.4.1 劃分?jǐn)?shù)據(jù)集 .436
14.4.2 初步建模 .437
14.4.3 模型優(yōu)化 .438
14.4.4 模型預(yù)測與評估 .439