本書從技術維度系統(tǒng)講解了用戶畫像的方法論和一些常見的工程化解決方案。
全書共分為9個章節(jié)。
用戶畫像基礎:講述用戶畫像的一些基礎概念、數(shù)據(jù)倉庫架構、整個項目開發(fā)的流程、以及畫像相關的表結構設計;
第二章 數(shù)據(jù)指標體系:從用戶屬性、用戶行為、用戶消費、風險控制等四個維度詳細羅列了常用到的用戶標簽,這些標簽基本涵蓋了大部分場景一半以上的標簽需求。同時介紹了標簽的規(guī)范化命名方式;
第三章 標簽數(shù)據(jù)存儲:講了為什么使用Hive、MySQL、hbase等數(shù)據(jù)庫對標簽數(shù)據(jù)進行存儲,以及存儲實現(xiàn)方式;
第四章 標簽數(shù)據(jù)開發(fā):本章是全書的重點章節(jié),講述了統(tǒng)計類標簽、規(guī)則類標簽、挖掘類標簽、流式計算類標簽的開發(fā)。以及用戶特征庫、人群計算、標簽權重計算、打通數(shù)據(jù)服務層等方面的開發(fā)。;
第五章 開發(fā)性能調(diào)優(yōu):主要包括數(shù)據(jù)傾斜調(diào)優(yōu)、開發(fā)中間表、讀取小文件處理、redis緩存熱數(shù)據(jù)等數(shù)據(jù)性能優(yōu)化方面;
第六章 作業(yè)流程調(diào)度:數(shù)據(jù)的ETL調(diào)度是數(shù)據(jù)開發(fā)中的重要內(nèi)容,本章主要講了如何使用當下熱門的開源調(diào)度工具Airflow進行數(shù)據(jù)的調(diào)度及場景調(diào)度異常的排查工作;
第七章 用戶畫像產(chǎn)品化:開發(fā)畫像后的標簽數(shù)據(jù),如果只是“躺在”數(shù)據(jù)倉庫中,并不能發(fā)揮更大的業(yè)務價值。只有將畫像數(shù)據(jù)產(chǎn)品化后才能更方便業(yè)務方的使用。本章主要講述了產(chǎn)品端的用戶畫像是什么樣子?如何幫助業(yè)務人員進行分析,提供服務的;
第八章 用戶畫像應用:用戶畫像的應用包括用戶分析、商品分析、流量分析、push、短信、郵件等營銷以及站內(nèi)的個性化推薦等應用場景;
第九章 實踐案例詳解:前面的八個章節(jié)主要從工程化開發(fā)的角度講了如何從0到1搭建起用戶畫像系統(tǒng)及其應用場景,本章從完整的工業(yè)實踐應用角度,通過兩個實踐案例幫助讀者更好地理解畫像系統(tǒng)是如何切入到應用場景中幫助提升工作效率、提高ROI的。
前言
第1章 用戶畫像基礎1
1.1 用戶畫像是什么1
1.1.1 畫像簡介1
1.1.2 標簽類型3
1.2 數(shù)據(jù)架構4
1.3 主要覆蓋模塊5
1.4 開發(fā)階段流程7
1.4.1 開發(fā)上線流程7
1.4.2 各階段關鍵產(chǎn)出9
1.5 畫像應用的落地10
1.6 某用戶畫像案例11
1.6.1 案例背景介紹11
1.6.2 相關元數(shù)據(jù)12
1.6.3 畫像表結構設計16
1.7 定性類畫像21
1.8 本章小結22
第2章 數(shù)據(jù)指標體系23
2.1 用戶屬性維度23
2.1.1 常見用戶屬性23
2.1.2 用戶性別26
2.2 用戶行為維度27
2.3 用戶消費維度27
2.4 風險控制維度29
2.5 社交屬性維度30
2.6 其他常見標簽劃分方式31
2.7 標簽命名方式33
2.8 本章小結34
第3章 標簽數(shù)據(jù)存儲35
3.1 Hive存儲35
3.1.1 Hive數(shù)據(jù)倉庫35
3.1.2 分區(qū)存儲37
3.1.3 標簽匯聚39
3.1.4 ID-MAP41
3.2 MySQL存儲45
3.2.1 元數(shù)據(jù)管理45
3.2.2 監(jiān)控預警數(shù)據(jù)47
3.2.3 結果集存儲47
3.3 HBase存儲50
3.3.1 HBase簡介50
3.3.2 應用場景52
3.3.3 工程化案例52
3.4 Elasticsearch存儲59
3.4.1 Elasticsearch簡介59
3.4.2 應用場景60
3.4.3 工程化案例64
3.5 本章小結67
第4章 標簽數(shù)據(jù)開發(fā)69
4.1 統(tǒng)計類標簽開發(fā)69
4.1.1 近30日購買行為標簽案例70
4.1.2 最近來訪標簽案例73
4.2 規(guī)則類標簽開發(fā)74
4.2.1 用戶價值類標簽案例75
4.2.2 用戶活躍度標簽案例79
4.3 挖掘類標簽開發(fā)84
4.3.1 案例背景84
4.3.2 特征選取及開發(fā)85
4.3.3 文本分詞處理86
4.3.4 數(shù)據(jù)結構處理89
4.3.5 文本TF-IDF權重90
4.3.6 樸素貝葉斯分類92
4.4 流式計算標簽開發(fā)95
4.4.1 流式標簽建模框架95
4.4.2 Kafka簡介96
4.4.3 Spark Streaming集成Kafka97
4.4.4 標簽開發(fā)及工程化99
4.5 用戶特征庫開發(fā)104
4.5.1 特征庫規(guī)劃105
4.5.2 數(shù)據(jù)開發(fā)107
4.5.3 其他特征庫規(guī)劃111
4.6 標簽權重計算112
4.6.1 TF-IDF詞空間向量112
4.6.2 時間衰減系數(shù)114
4.6.3 標簽權重配置115
4.7 標簽相似度計算116
4.7.1 案例場景116
4.7.2 數(shù)據(jù)開發(fā)118
4.8 組合標簽計算122
4.8.1 應用場景122
4.8.2 數(shù)據(jù)計算123
4.9 數(shù)據(jù)服務層開發(fā)124
4.9.1 推送至營銷系統(tǒng)125
4.9.2 接口調(diào)用服務127
4.10 GraphX圖計算用戶129
4.10.1 圖計算理論及應用場景129
4.10.2 數(shù)據(jù)開發(fā)案例132
4.11 本章小結135
第5章 開發(fā)性能調(diào)優(yōu)137
5.1 數(shù)據(jù)傾斜調(diào)優(yōu)137
5.2 合并小文件141
5.3 緩存中間數(shù)據(jù)143
5.4 開發(fā)中間表144
5.5 本章小結145
第6章 作業(yè)流程調(diào)度146
6.1 crontab命令調(diào)度146
6.2 Airflow工作平臺148
6.2.1 基礎概念149
6.2.2 Airflow服務構成150
6.2.3 Airflow安裝151
6.2.4 主要模塊功能151
6.2.5 工作流調(diào)度155
6.2.6 腳本實例155
6.2.7 常用命令行158
6.2.8 工程化調(diào)度方案158
6.3 數(shù)據(jù)監(jiān)控預警161
6.3.1 標簽監(jiān)控預警161
6.3.2 服務層預警162
6.4 ETL異常排查164
6.5 本章小結166
第7章 用戶畫像產(chǎn)品化167
7.1 即時查詢167
7.2 標簽視圖與標簽查詢169
7.3 元數(shù)據(jù)管理171
7.4 用戶分群功能173
7.5 人群分析功能175
7.6 本章小結177
第8章 用戶畫像應用178
8.1 經(jīng)營分析178
8.1.1 商品分析178
8.1.2 用戶分析179
8.1.3 渠道分析180
8.1.4 漏斗分析185
8.1.5 客服話術186
8.1.6 人群特征分析186
8.2 精準營銷187
8.2.1 短信/郵件營銷187
8.2.2 效果分析188
8.3 個性化推薦與服務189
8.4 本章小結190
第9章 實踐案例詳解191
9.1 風控反欺詐預警191
9.1.1 應用背景191
9.1.2 用戶畫像切入點192
9.2 A/B人群效果測試193
9.2.1 案例背景194
9.2.2 用戶畫像切入點194
9.2.3 效果分析195
9.3 用戶生命周期劃分與營銷195
9.3.1 生命周期劃分196
9.3.2 不同階段的用戶觸達策略201
9.3.3 畫像在生命周期中的應用204
9.3.4 應用案例206
9.4 高價值用戶實時營銷209
9.4.1 項目應用背景209
9.4.2 用戶畫像切入點209
9.4.3 HBase應用場景小結209
9.5 短信營銷用戶211
9.5.1 案例背景211
9.5.2 畫像切入及其應用效果211
9.6 Session行為分析應用213
9.6.1 關于用戶行為分析213
9.6.2 案例背景218
9.6.3 特征構建219
9.6.4 分析方法與結論221
9.7 人群效果監(jiān)測報表搭建228
9.7.1 案例背景228
9.7.2 邏輯梳理228
9.7.3 自動報表郵件237
9.8 基于用戶特征庫篩選目標人群239
9.8.1 案例背景239
9.8.2 應用方式及效果240
9.9 本章小結241
附錄 某產(chǎn)品用戶畫像項目規(guī)劃文檔242