前言
第1章 機器學
本書使用的庫
用pip安裝庫
用conda安裝庫
第2章 機器學概覽
第3章 數(shù)據(jù)分類工作流:泰坦尼克號數(shù)據(jù)集
項目布局建議
導入
提出問題
數(shù)據(jù)術(shù)語
獲取數(shù)據(jù)
清洗數(shù)據(jù)
創(chuàng)建特征
數(shù)據(jù)采樣
數(shù)據(jù)r/> 規(guī)范數(shù)據(jù)
重構(gòu)
基準模型
不同算法族
模型堆疊
建模
評估模型
優(yōu)化模型
混淆矩陣
ROC曲線
學
部署模型
第4章 數(shù)據(jù)缺失
檢查數(shù)據(jù)缺失情況
刪除缺數(shù)據(jù)的行或列
r/> 添加標識列
第5章 清洗數(shù)據(jù)
處理列名
替換缺失值
第6章 探索數(shù)據(jù)
數(shù)據(jù)大小
計
直方圖
散點圖
Joint Plot圖
Pair Grid圖
箱形圖和小提琴圖
比較兩個序數(shù)型特征
相關(guān)性
RadViz圖
行坐標圖
第7章 預(yù)處理數(shù)據(jù)
標準化
調(diào)整取值范圍
虛擬變量
標簽編碼
頻數(shù)編碼
從字符串抽取類別型數(shù)據(jù)
類別型數(shù)據(jù)的其他編碼方法
日期特征的法
添加col_na特征
特征工程
第8章 特征選擇
共線列
套索回歸
遞歸特征消除
互信息
主成分分析
特征重要性
第9章 類別衡
采用不同度量標準
樹模型和集成方法
懲罰模型
對小眾類別上采樣
生成小眾數(shù)據(jù)
對大眾類別下采樣
先上采樣,再下采樣
第10章 分類
對數(shù)概率回歸
樸素貝葉斯
支持向量機
鄰
決策樹
隨機森林
XGBoor/> LightGBM
TPOT
第11章 模型選擇
驗證曲線
學
第12章 度量標準和分類評估
混淆矩陣
度量標準
準確率
召回率
精準率
fl值
分類報告
ROC曲線
精準率-召回率曲線
累積增益圖
lift曲線
類衡
類別預(yù)測錯誤
判別閾值
第13章 解釋模型
回歸系數(shù)
特征重要性
LIM
解釋樹模型
部分依賴圖
替代模型
Shapley值
第14章 回歸
基準模型
線性回歸
支持向量機
鄰
決策樹
隨機森林
XGBoost回歸
LightGBM回歸
第15章 度量標準和回歸模型的評估
度量標準
殘差圖
異方差性
殘差正態(tài)性
預(yù)測誤差圖
第16章 解釋回歸模型
Shapley值
第17章 降維技術(shù)
PCA方法
UMAP方法
t-SNE方法
PHATE方法
第18章 聚類
k-means算法
層次聚類
理解簇
第19章 流水線
分類流水線
回歸流水線
PCA流水線