Python數(shù)據(jù)分析基礎(chǔ)教程
定 價:49.8 元
- 作者:鄭丹青
- 出版時間:2020/3/1
- ISBN:9787115511577
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁碼:248
- 紙張:
- 版次:01
- 開本:16開
本書詳細講解了Python數(shù)據(jù)分析的相關(guān)內(nèi)容,共分為10章,第1~9章分別講解了數(shù)據(jù)分析概述、Python與數(shù)據(jù)分析、Python語言基礎(chǔ)、NumPy數(shù)組與矢量計算、用NumPy進行簡單統(tǒng)計分析、數(shù)據(jù)可視化——Matplotlib庫、pandas數(shù)據(jù)分析基礎(chǔ)、用pandas進行數(shù)據(jù)預(yù)處理、機器學(xué)習(xí)庫scikit-learn入門;第10章用一個綜合案例——電影數(shù)據(jù)分析項目,帶領(lǐng)讀者靈活掌握本書所學(xué)內(nèi)容。
本書適合作為高等院校本、?朴嬎銠C相關(guān)專業(yè)的教材,也可供愛好者自學(xué)使用。
1.大數(shù)據(jù)相關(guān)專業(yè)的必修課程教材;
2.以基礎(chǔ)入門為主線,滿足職業(yè)院校學(xué)生對數(shù)據(jù)分析課程的需要;
3.突出動手實踐,各個章節(jié)設(shè)計了實訓(xùn)環(huán)節(jié),全書最后設(shè)計了綜合實訓(xùn)項目——電影數(shù)據(jù)分析,帶領(lǐng)讀者全面掌握全書內(nèi)容。
鄭丹青,女,高級工程師, 教授。在企業(yè)從事計算機軟件開發(fā)二十多年,獲株洲市科委獎勵。從事職業(yè)教育15年,是湖南省計算機應(yīng)用技術(shù)省級專業(yè)帶頭人,獲得2016年湖南省“移動互聯(lián)應(yīng)用技術(shù)“省級培訓(xùn)優(yōu)秀學(xué)員。
第 1章
數(shù)據(jù)分析概述 1
1.1 數(shù)據(jù)的性質(zhì) 1
1.1.1 數(shù)據(jù)的概念 1
1.1.2 數(shù)據(jù)的類型 1
1.2 數(shù)據(jù)分析 2
1.2.1 數(shù)據(jù)分析的概念 2
1.2.2 數(shù)據(jù)分析的過程 2
1.2.3 數(shù)據(jù)分析的作用 5
1.2.4 數(shù)據(jù)分析的常用工具 5
本章小結(jié) 5
思考練習(xí) 6
第 2章
Python與數(shù)據(jù)分析 7
2.1 Python簡介 7
2.1.1 Python語言的特點 7
2.1.2 Python解釋器 8
2.2 Python與數(shù)據(jù)分析的關(guān)系 8
2.3 Python數(shù)據(jù)分析常用的類庫 8
2.4 Python開發(fā)環(huán)境的搭建 10
2.5 Python集成開發(fā)環(huán)境的搭建 13
2.5.1 PyCharm的安裝與使用 13
2.5.2 Jupyter Notebook的安裝與
使用 19
項目實踐 25
本章小結(jié) 25
思考練習(xí) 25
第3章
Python語言基礎(chǔ) 26
3.1 Python基礎(chǔ)語法 26
3.1.1 Python的語法規(guī)則 26
3.1.2 常量、變量與標準數(shù)據(jù)類型 29
3.1.3 第 一個Python程序 30
3.2 Python的數(shù)據(jù)類型 31
3.2.1 數(shù)字 31
3.2.2 字符串 33
3.2.3 Python的數(shù)據(jù)結(jié)構(gòu)組成 36
3.2.4 列表 36
3.2.5 元組 40
3.2.6 字典 43
3.2.7 集合 48
3.3 Python流程控制語句 50
3.3.1 if條件語句 51
3.3.2 while循環(huán)控制語句 52
3.3.3 for循環(huán)控制語句 53
3.3.4 range()函數(shù)的作用 53
3.3.5 break、continue、pass語句 54
3.4 Python的函數(shù) 55
3.4.1 自定義函數(shù) 55
3.4.2 設(shè)置函數(shù)參數(shù) 55
3.4.3 返回函數(shù)值 57
3.4.4 調(diào)用自定義函數(shù) 57
3.4.5 局部變量和全局變量 58
3.4.6 函數(shù)嵌套 59
3.4.7 匿名函數(shù) 60
項目實踐 60
本章小結(jié) 62
思考練習(xí) 62
第4章
NumPy數(shù)組與矢量計算 64
4.1 NumPy概述 64
4.1.1 NumPy簡介 64
4.1.2 NumPy的安裝與測試 65
4.1.3 SciPy簡介及其安裝與測試 65
4.1.4 NumPy的簡單應(yīng)用:一維
數(shù)組相加 66
4.2 NumPy數(shù)組對象 67
4.2.1 創(chuàng)建數(shù)組對象 68
4.2.2 選取數(shù)組元素 68
4.2.3 數(shù)組的屬性 68
4.2.4 創(chuàng)建數(shù)組的其他方法 69
4.2.5 NumPy的數(shù)據(jù)類型 70
4.3 NumPy數(shù)組操作 72
4.3.1 數(shù)組的索引和切片 72
4.3.2 修改數(shù)組形狀 74
4.3.3 數(shù)組的展平 75
4.3.4 數(shù)組轉(zhuǎn)置和軸對換 76
4.3.5 數(shù)組的連接 77
4.3.6 數(shù)組的分割 78
4.3.7 數(shù)組轉(zhuǎn)換 79
4.3.8 添加/刪除數(shù)組元素 79
4.4 NumPy數(shù)組的矢量計算 81
4.4.1 數(shù)組的運算 81
4.4.2 通用函數(shù)(ufunc) 83
4.5 NumPy矩陣創(chuàng)建、計算及
操作 84
4.6 隨機數(shù)的生成 87
項目實踐 89
本章小結(jié) 90
思考練習(xí) 90
第5章
用NumPy進行簡單統(tǒng)計
分析 91
5.1 文件讀寫操作 91
5.1.1 使用NumPy讀寫文本文件 91
5.1.2 使用NumPy讀寫二進制格式
文件 93
5.1.3 使用NumPy讀寫多維數(shù)據(jù)
文件 94
5.2 NumPy常用的統(tǒng)計函數(shù) 94
5.3 使用NumPy函數(shù)進行統(tǒng)計
分析 98
5.3.1 NumPy的排序函數(shù) 98
5.3.2 NumPy的去重與重復(fù)函數(shù) 100
5.3.3 NumPy的搜索和計數(shù)函數(shù) 102
5.4 簡單的統(tǒng)計分析 103
項目實踐 106
本章小結(jié) 107
思考練習(xí) 107
第6章
數(shù)據(jù)可視化——
Matplotlib庫 109
6.1 Matplotlib概述 109
6.1.1 Matplotlib簡介 109
6.1.2 Matplotlib的測試、安裝與
導(dǎo)入 110
6.1.3 IPython及pylab模式 111
6.2 使用pyplot創(chuàng)建圖形 111
6.2.1 創(chuàng)建簡單圖形 111
6.2.2 創(chuàng)建子圖 114
6.3 Matplotlib參數(shù)配置 115
6.3.1 matplotlibrc配置文件 115
6.3.2 設(shè)置動態(tài)rc參數(shù) 116
6.4 分析變量間關(guān)系圖 117
6.4.1 繪制散點圖 117
6.4.2 繪制折線圖 119
6.5 分析變量數(shù)據(jù)分布和分散
狀況 120
6.5.1 繪制直方圖 120
6.5.2 繪制柱狀圖 122
6.5.3 繪制餅圖 123
6.5.4 繪制箱線圖 125
項目實踐 126
本章小結(jié) 127
思考練習(xí) 127
第7章
pandas數(shù)據(jù)分析基礎(chǔ) 128
7.1 pandas概述 128
7.1.1 pandas簡介 128
7.1.2 pandas測試、安裝與
導(dǎo)入 129
7.2 pandas的數(shù)據(jù)結(jié)構(gòu)及常用
操作 130
7.2.1 Series對象及常用操作 130
7.2.2 DataFrame對象及常用
操作 134
7.3 pandas的索引 141
7.3.1 Index索引對象 141
7.3.2 Index對象的屬性和方法 141
7.3.3 重新索引 143
7.3.4 層級索引 144
7.4 pandas數(shù)據(jù)結(jié)構(gòu)之間的
運算 148
7.4.1 算術(shù)和數(shù)據(jù)對齊 148
7.4.2 算術(shù)運算方法 149
7.4.3 DataFrame與Series對象
之間的運算 150
7.5 pandas的函數(shù)應(yīng)用 151
7.5.1 數(shù)據(jù)篩選 151
7.5.2 apply()函數(shù) 151
7.5.3 數(shù)據(jù)統(tǒng)計函數(shù) 153
7.5.4 DataFrame格式化函數(shù) 153
7.5.5 排序和排名 154
7.6 數(shù)據(jù)讀取與寫入 156
7.6.1 讀/寫文本文件 156
7.6.2 讀/寫Excel文件 158
7.6.3 讀/寫數(shù)據(jù)庫文件 159
7.6.4 讀/寫JSON文件 162
7.7 數(shù)據(jù)分析方法 163
7.7.1 基本統(tǒng)計分析 163
7.7.2 分組分析 164
7.7.3 分布分析 165
7.7.4 交叉分析 166
7.7.5 結(jié)構(gòu)分析 168
7.7.6 相關(guān)分析 169
項目實踐 171
本章小結(jié) 171
思考練習(xí) 172
第8章
用pandas進行數(shù)據(jù)
預(yù)處理 173
8.1 數(shù)據(jù)清洗 173
8.1.1 重復(fù)值的處理 173
8.1.2 缺失值的處理 174
8.1.3 異常值的處理 177
8.2 數(shù)據(jù)合并 178
8.2.1 按鍵連接數(shù)據(jù) 179
8.2.2 沿軸連接數(shù)據(jù) 181
8.2.3 合并重疊數(shù)據(jù) 184
8.3 數(shù)據(jù)抽取 185
8.3.1 字段抽取與拆分 185
8.3.2 記錄抽取 186
8.4 重塑層次化索引 187
8.5 映射與數(shù)據(jù)轉(zhuǎn)換 188
8.5.1 用映射替換元素 189
8.5.2 用映射添加元素 190
8.5.3 重命名軸索引 190
8.6 排列與隨機抽樣 191
8.7 日期轉(zhuǎn)換、日期格式化和日期
抽取 192
8.8 字符串處理 194
8.8.1 內(nèi)置的字符串處理方法 194
8.8.2 正則表達式 196
8.8.3 矢量化的字符串函數(shù) 201
項目實踐 203
本章小結(jié) 204
思考練習(xí) 204
第9章
機器學(xué)習(xí)庫scikit-learn
入門 206
9.1 機器學(xué)習(xí)概述 206
9.2 scikit-learn概述 208
9.2.1 scikit-learn介紹 208
9.2.2 scikit-learn測試、安裝和
導(dǎo)入 209
9.3 第 一個機器學(xué)習(xí)程序 209
9.4 使用scikit-learn進行機器
學(xué)習(xí) 210
9.4.1 Seaborn繪圖 210
9.4.2 準備數(shù)據(jù)集 215
9.4.3 選擇模型 220
9.4.4 調(diào)整參數(shù)訓(xùn)練和測試模型 223
項目實踐 226
本章小結(jié) 228
思考練習(xí) 228
第 10章
電影數(shù)據(jù)分析項目 230
10.1 項目描述 230
10.2 準備數(shù)據(jù) 231
10.3 數(shù)據(jù)清洗 231
10.4 數(shù)據(jù)分析與數(shù)據(jù)可視化 232
本章小結(jié) 238
思考練習(xí) 238
參考文獻 239