本書系統(tǒng)地闡述機器學習的數(shù)學基礎(chǔ)知識,但并非大學數(shù)學教材的翻版,而是以機器學習算法為依據(jù),選取數(shù)學知識,并從應(yīng)用的角度闡述各種數(shù)學定義、定理等,側(cè)重于講清楚它們的應(yīng)用和實現(xiàn)方法。所以,書中將使用開發(fā)者喜歡的編程語言(Python)來實現(xiàn)各種數(shù)學計算,并闡述數(shù)學知識在機器學習算法中的應(yīng)用體現(xiàn)。
齊偉,耕耘于代碼世界,以Web開發(fā)和人工智能技術(shù)為主要方向,研發(fā)、教學、寫作并舉,已經(jīng)出版了《跟老齊學Python:輕松入門》《跟老齊學Python:Django實戰(zhàn)》《跟老齊學Python:數(shù)據(jù)分析》《數(shù)據(jù)準備和特征工程》《Python大學實用教程》。
目錄
第1章 向量和向量空間 1
1.1 向量 2
1.1.1 描述向量 3
1.1.2 向量的加法 10
1.1.3 向量的數(shù)量乘法 12
1.2 向量空間 14
1.2.1 什么是向量空間 14
1.2.2 線性組合 16
1.2.3 線性無關(guān) 17
1.2.4 子空間 23
1.3 基和維數(shù) 25
1.3.1 極大線性無關(guān)組 25
1.3.2 基 26
1.3.3 維數(shù) 32
1.4 內(nèi)積空間 34
1.4.1 什么是內(nèi)積空間 34
1.4.2 點積和歐幾里得空間 36
1.5 距離和角度 38
1.5.1 距離 38
1.5.2 基于距離的分類 43
1.5.3 范數(shù)和正則化 46
1.5.4 角度 49
1.6 非歐幾何 51
第2章 矩陣 54
2.1 基礎(chǔ)知識 55
2.1.1 什么是矩陣 55
2.1.2 初等變換 59
2.1.3 矩陣加法 62
2.1.4 數(shù)量乘法 63
2.1.5 矩陣乘法 65
2.2 線性映射 70
2.2.1 理解什么是線性 70
2.2.2 線性映射 72
2.2.3 矩陣與線性映射 76
2.2.4 齊次坐標系 79
2.3 矩陣的逆和轉(zhuǎn)置 85
2.3.1 逆矩陣 85
2.3.2 轉(zhuǎn)置矩陣 89
2.3.3 矩陣LU分解 91
2.4 行列式 94
2.4.1 計算方法和意義 94
2.4.2 線性方程組 98
2.5 矩陣的秩 102
2.6 稀疏矩陣 107
2.6.1 生成稀疏矩陣 107
2.6.2 稀疏矩陣壓縮 108
2.7 圖與矩陣 112
2.7.1 圖的基本概念 112
2.7.2 鄰接矩陣 114
2.7.3 關(guān)聯(lián)矩陣 119
2.7.4 拉普拉斯矩陣 120
第3章 特征值和特征向量 122
3.1 基本概念 123
3.1.1 定義 123
3.1.2 矩陣的跡 127
3.1.3 一般性質(zhì) 128
3.2 應(yīng)用示例 129
3.2.1 動力系統(tǒng)微分方程 129
3.2.2 馬爾科夫矩陣 131
3.3 相似矩陣 135
3.3.1 相似變換 137
3.3.2 幾何理解 141
3.3.3 對角化 144
3.4 正交和投影 150
3.4.1 正交集和標準正交基 150
3.4.2 正交矩陣 154
3.4.3 再探對稱矩陣 156
3.4.4 投影 159
3.5 矩陣分解 163
3.5.1 QR分解 163
3.5.2 特征分解 167
3.5.3 奇異值分解 172
3.5.4 數(shù)據(jù)壓縮 178
3.5.5 降噪 182
3.6 最小二乘法(1) 184
3.6.1 正規(guī)方程 184
3.6.2 線性回歸(1) 186
第4章 向量分析 191
4.1 向量的代數(shù)運算 192
4.1.1 叉積 192
4.1.2 張量和外積 196
4.2 向量微分 199
4.2.1 函數(shù)及其導(dǎo)數(shù) 199
4.2.2 偏導(dǎo)數(shù) 201
4.2.3 梯度 206
4.2.4 矩陣導(dǎo)數(shù) 211
4.3 最優(yōu)化方法 215
4.3.1 簡單的線性規(guī)劃 215
4.3.2 最小二乘法(2) 218
4.3.3 梯度下降法 221
4.3.4 線性回歸(2) 226
4.3.5 牛頓法 228
4.4 反向傳播算法 229
4.4.1 神經(jīng)網(wǎng)絡(luò) 230
4.4.2 參數(shù)學習 234
4.4.3 損失函數(shù) 248
4.4.4 激活函數(shù) 253
4.4.5 理論推導(dǎo) 258
第5章 概率 263
5.1 基本概念 264
5.1.1 試驗和事件 264
5.1.2 理解概率 266
5.1.3 條件概率 269
5.2 貝葉斯定理 272
5.2.1 事件的獨立性 273
5.2.2 全概率公式 274
5.2.3 理解貝葉斯定理 276
5.3 隨機變量和概率分布 279
5.3.1 隨機變量 279
5.3.2 離散型隨機變量的分布 281
5.3.3 連續(xù)型隨機變量的分布 295
5.3.4 多維隨機變量及分布 307
5.3.5 條件概率分布 312
5.4 隨機變量的和 317
5.4.1 離散型隨機變量的和 317
5.4.2 連續(xù)型隨機變量的和 318
5.5 隨機變量的數(shù)字特征 321
5.5.1 數(shù)學期望 321
5.5.2 方差和協(xié)方差 326
5.5.3 計算相似度 337
5.5.4 協(xié)方差矩陣 343
第6章 數(shù)理統(tǒng)計 346
6.1 樣本和抽樣 347
6.1.1 總體和樣本 347
6.1.2 統(tǒng)計量 348
6.2 點估計 353
6.2.1 最大似然估計 354
6.2.2 線性回歸(3) 358
6.2.3 最大后驗估計 362
6.2.4 估計的選擇標準 365
6.3 區(qū)間估計 368
6.4 參數(shù)檢驗 373
6.4.1 基本概念 374
6.4.2 正態(tài)總體均值的假設(shè)檢驗 378
6.4.3 正態(tài)總體方差的假設(shè)檢驗 384
6.4.4 p值檢驗 385
6.4.5 用假設(shè)檢驗比較模型 388
6.5 非參數(shù)檢驗 391
6.5.1 擬合優(yōu)度檢驗 391
6.5.2 列聯(lián)表檢驗 394
第7章 信息與熵 399
7.1 度量信息 399
7.2 信息熵 402
7.3 聯(lián)合熵和條件熵 406
7.4 相對熵和交叉熵 409
7.5 互信息 414
7.6 連續(xù)分布 416
附錄A 419
后記 436