概率與統(tǒng)計:數(shù)據(jù)科學(xué)視角
定 價:89 元
叢書名:統(tǒng)計學(xué)精品譯叢
- 作者:王彩霞
- 出版時間:2022/3/1
- ISBN:9787111628941
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:O21
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書從數(shù)據(jù)科學(xué)視角,詳細講解概率分布、期望值、估計等概率統(tǒng)計知識,廣泛使用真實的數(shù)據(jù)集,同時所有數(shù)據(jù)分析均由R編碼支持。此外,本書包含許多數(shù)據(jù)科學(xué)應(yīng)用,如主成分分析、混合分布、隨機圖模型、隱馬爾科夫模型、線性回歸、邏輯回歸和神經(jīng)網(wǎng)絡(luò)等。
本書是一本面向數(shù)據(jù)科學(xué)、計算機科學(xué)專業(yè)學(xué)生的概率統(tǒng)計教材。全書共分為四部分:第壹部分(第1~6章)主要介紹概率論、蒙特卡羅模擬、離散型隨機變量、期望值和方差、離散參數(shù)分布族、連續(xù)型概率模型;第二部分(第7~10章)主要介紹統(tǒng)計學(xué)基礎(chǔ)知識,包括抽樣分布、極大似然估計、中心極限定理、置信區(qū)間和顯著性檢驗等;第三部分(第11~17章)主要介紹多元分析相關(guān)內(nèi)容,包括多元分布、混合分布、主成分分析、對數(shù)線性模型、降維、過擬合和預(yù)測分析等;第四部分(附錄)介紹R語言編程基礎(chǔ)知識。
致教師
對于物理、化學(xué)或生物學(xué)這樣的學(xué)科而言,我們學(xué)習(xí)一門學(xué)科是為了解決這門學(xué)科的問題,而統(tǒng)計學(xué)與這些學(xué)科不同,研究統(tǒng)計學(xué)的主要目的是解決其他學(xué)科的問題.
——C.R.Rao,現(xiàn)代統(tǒng)計學(xué)的先驅(qū)之一
教育的作用是教人認真思考和批判性思考.智慧與品格——這才是教育的真正目標.
——馬丁·路德·金博士,美國民權(quán)領(lǐng)袖
其萬折也必東,似志.
——孔子,中國古代哲學(xué)家
本書主要是為數(shù)據(jù)科學(xué)(包括計算機科學(xué))專業(yè)學(xué)生設(shè)計的概率與統(tǒng)計教材,涵蓋初級/高級/研究生水平的概率論和統(tǒng)計學(xué)知識.除微積分外,本書還要求學(xué)生掌握一些矩陣代數(shù)知識并具備基本的計算機編程能力.
但是,這本書為什么不同于其他概率論和數(shù)理統(tǒng)計教材呢?
事實上,這本書確實與其他概率論與數(shù)理統(tǒng)計方面的書完全不同.簡要概括如下:
●本書英文版的副書名是Math+R+Data,這里直接體現(xiàn)了本書與其他數(shù)理統(tǒng)計類書籍的不同.
●強調(diào)數(shù)據(jù)科學(xué)應(yīng)用,例如,隨機圖模型、冪律分布、隱馬爾可夫模型、主成分分析、谷歌PageRank、遙感、混合分布、神經(jīng)網(wǎng)絡(luò)、維數(shù)災(zāi)難等.
●廣泛使用R語言.
與其他數(shù)理統(tǒng)計類書籍相比,本書特別強調(diào)應(yīng)用,使用了大量的真實數(shù)據(jù).
本書從應(yīng)用的角度出發(fā)組織內(nèi)容,注重培養(yǎng)學(xué)生批判性思考使用統(tǒng)計學(xué)的方式和原因,并使學(xué)生具有“全局觀”.
●使用真實數(shù)據(jù),并及早地引入統(tǒng)計問題.
前面的Rao語錄引起了我的強烈共鳴.雖然這是一本“數(shù)理統(tǒng)計”教材,涵蓋了隨機變量、密度函數(shù)、期望值、分布、統(tǒng)計估計和推斷等,但是正如本書書名所體現(xiàn)的,本書特別強調(diào)這些知識在數(shù)據(jù)科學(xué)中的應(yīng)用.作為一本關(guān)于數(shù)據(jù)科學(xué)的書,即使只是一本數(shù)理統(tǒng)計書,也應(yīng)該充分利用數(shù)據(jù)!
這對本書章節(jié)的順序有影響.我們很早地引入了統(tǒng)計學(xué),并在正文中穿插著統(tǒng)計問題.甚至是在介紹數(shù)學(xué)期望的第3章,也包括一些簡單的預(yù)測模型,為學(xué)習(xí)第15章的內(nèi)容作鋪墊.第5章介紹著名的離散參數(shù)模型,并包含用冪律分布擬合真實數(shù)據(jù)的例子.這是第7章的前奏,之后在第7章將討論抽樣分布、均值和方差估計、偏差等知識.第8章介紹點估計,并利用極大似然估計和矩方法對真實數(shù)據(jù)進行模型擬合.從該章起,后面每一章都廣泛使用了真實數(shù)據(jù).
因為這些數(shù)據(jù)集都是公開的,所以授課教師可以深入研究這些數(shù)據(jù)示例.
●數(shù)學(xué)上正確——還要有很好的直覺.
前面給出的孔子的這句話雖然早在統(tǒng)計方法正式發(fā)展之前就有了,但是這表明他已經(jīng)具有敏銳的直覺,預(yù)見了當(dāng)今數(shù)據(jù)科學(xué)領(lǐng)域的一個基本概念——數(shù)據(jù)平滑.培養(yǎng)學(xué)生的這種強烈的直覺是本書的重中之重.
這當(dāng)然是一本數(shù)學(xué)書.所有模型、概念等都是用隨機變量和分布來精確描述的.除了微積分之外,矩陣代數(shù)也扮演著重要的角色.在許多章節(jié)的后都增加了選學(xué)的數(shù)學(xué)補充內(nèi)容,以便為好奇的讀者提供更多材料,探索更復(fù)雜的內(nèi)容.每章后的練習(xí)都包括一些常規(guī)練習(xí)題和一些更具挑戰(zhàn)性的問題.
另外,這本書不是為了數(shù)學(xué)而“數(shù)學(xué)”的書,盡管用數(shù)學(xué)語言對相關(guān)內(nèi)容描述得很精確,但它絕不是一本理論書.
例如,本書并沒有從樣本空間和集合論的角度來定義概率.以我的經(jīng)驗,用經(jīng)典的方式定義概率是學(xué)習(xí)這些概念背后的直覺的一個主要障礙,也阻礙了后面做好應(yīng)用工作.相反,我使用直覺的、非形式化的方法,從長期頻率的角度來定義概率,本質(zhì)上是把強大數(shù)定律作為一個公理.
我相信這種方法在解釋條件概率和期望值時特別有用,這些概念是學(xué)生們常遇到的難題.在經(jīng)典的方法下,如果題目敘述沒有給定明確的短語(如給定條件下),學(xué)生們很難識別出這個練習(xí)(甚至是實際應(yīng)用)需要條件概率或期望.相反,我是讓學(xué)生從反復(fù)試驗的角度來思考,在B發(fā)生的時間里,A發(fā)生了多少次?這更容易與實際相聯(lián)系.
●提高學(xué)生的實際應(yīng)用能力.
“應(yīng)用”這個詞對于不同的人意味著不同的事.例如,Mitzenmacher和Upfal\[33\]為計算機科學(xué)專業(yè)的學(xué)生編寫了一本有趣而優(yōu)雅的書,他所關(guān)注的概率實際上是離散型概率,他的預(yù)期應(yīng)用實際上是針對計算機科學(xué)的理論.
相反,我關(guān)注的是在現(xiàn)實世界中使用這些知識,這往往涉及更多的是連續(xù)型而不是離散型概率,并且更多的是在統(tǒng)計學(xué)而不是概率論領(lǐng)域.這尤其有價值,因為現(xiàn)在大數(shù)據(jù)和機器學(xué)習(xí)在計算機和數(shù)據(jù)科學(xué)中發(fā)揮著重要的作用.
你馬上可以在書中看到這種哲學(xué).這本書的個例子不是關(guān)于骰子或硬幣的,而是涉及公交系統(tǒng)模型和計算機網(wǎng)絡(luò)模型.當(dāng)然,書中也有使用骰子、硬幣和游戲的例子,但是,就像已故的Leo Breiman的書\[5\]的副書名一樣,“著眼于應(yīng)用”(With a View toward Applications)永遠不會遙遠.
如果我可以冒昧地引述馬丁·路德·金的話,我要指出的是,今天的統(tǒng)計學(xué)是一個核心的知識領(lǐng)域,它幾乎影響著每個人的日常生活.具有使用統(tǒng)計數(shù)據(jù)或者至少可以理解統(tǒng)計數(shù)據(jù)的能力,對于我們來說至關(guān)重要.作為本書的作者,我將此視為一項使命.
●R編程語言的使用.
出于模擬和數(shù)據(jù)分析的目的,本書利用了R語言中一些輕量級的程序.學(xué)生應(yīng)該具有一些基本的編程背景,比如說Python、C、Java或R中的一個,但是無須
諾曼·馬特羅夫(Norman Matloff)是加州大學(xué)戴維斯分校計算機科學(xué)專業(yè)教授,并曾擔(dān)任該校統(tǒng)計學(xué)專業(yè)教授。他是 Journal of Statistical Software和The R Journal的編委會成員。他的著作Statistical Regression and Classification: From Linear Models to Machine Learning曾入選2017年國際Ziegel獎。他還是該校杰出教學(xué)獎的獲得者。
前言
作者簡介
部分 概率論基礎(chǔ)
第1章 基本的概率模型2
1.1 示例:公共汽車客流量2
1.2 “筆記本”視圖:重復(fù)實驗的概念3
1.2.1 理論方法3
1.2.2 更直觀的方法3
1.3 我們的定義4
1.4 “郵寄筒”7
1.5 示例:公共汽車客流量(續(xù))7
1.6 示例:ALOHA網(wǎng)絡(luò)9
1.6.1 ALOHA網(wǎng)絡(luò)模型總結(jié)10
1.6.2 ALOHA網(wǎng)絡(luò)計算10
1.7 筆記本環(huán)境中的ALOHA12
1.8 示例:一個簡單的棋盤游戲13
1.9 貝葉斯法則14
1.9.1 總則14
1.9.2 示例:文檔分類15
1.10 隨機圖模型15
1.10.1 示例:擇優(yōu)連接模型16
1.11 基于組合數(shù)學(xué)的計算16
1.11.1 5張牌中哪一種情況更有可能:一張國王還是兩張紅心16
1.11.2 示例:學(xué)生的隨機分組17
1.11.3 示例:彩票17
1.11.4 示例:數(shù)字之差18
1.11.5 多項式系數(shù)19
1.11.6 示例:打橋牌時得到4張A的概率19
1.12 練習(xí)20
第2章 蒙特卡羅模擬22
2.1 示例:擲骰子22
2.1.1 次改進22
2.1.2 第二次改進23
2.1.3 第三次改進24
2.2 示例:骰子問題24
2.3 使用runif()模擬事件25
2.4 示例:公共汽車客流量(續(xù))25
2.5 示例:棋盤游戲(續(xù))25
2.6 示例:斷桿26
2.7 我們應(yīng)該運行模擬多長時間26
2.8 計算補充26
2.8.1 replicate()函數(shù)的更多信息26
2.9 練習(xí)27
第3章 離散型隨機變量:期望值28
3.1 隨機變量28
3.2 離散型隨機變量28
3.3 獨立的隨機變量29
3.4 示例:蒙提霍爾問題29
3.5 期望值31
3.5.1 一般性——不只是離散型隨機變量31
3.5.2 用詞不當(dāng)31
3.5.3 定義和筆記本視圖31
3.6 期望值的性質(zhì)32
3.6.1 計算公式32
3.6.2 期望值的一些性質(zhì)33
3.7 示例:公共汽車客流量35
3.8 示例:預(yù)測產(chǎn)品需求36
3.9 通過模擬求期望值36
3.10 賭場、保險公司和“總和使用者”與其他情況相比37
3.11 數(shù)學(xué)補充38
3.11.1 性質(zhì)E的證明38
3.12 練習(xí)38
第4章 離散型隨機變量:方差39
4.1 方差39
4.1.1 定義39
4.1.2 方差概念的核心重要性41
4.1.3 關(guān)于Var(X)大小的直覺41
4.2 有用的事實42
4.3 協(xié)方差43
4.4 指示隨機變量及其均值和方差44
4.4.1 示例:圖書館圖書歸還時間(版)44
4.4.2 示例:圖書館圖書歸還時間(第二版)45
4.4.3 示例:委員會問題中的指示變量45
4.5 偏度47
4.6 數(shù)學(xué)補充47
4.6.1 切比雪夫不等式的證明47
4.7 練習(xí)48
第5章 離散參數(shù)分布族49
5.1 分布49
5.1.1 示例:擲硬幣直到次出現(xiàn)正面為止49
5.1.2 示例:兩個骰子的和49
5.1.3 示例:Watts-Strogatz隨機圖模型50
5.2 參數(shù)分布族51
5.3 對我們很重要的案例:pmf的參數(shù)族51
5.4 基于伯努利實驗的分布51
5.4.1 幾何分布族52
5.4.2 二項分布族55
5.4.3 負二項分布族56
5.5 兩種主要的非伯努利模型58
5.5.1 泊松分布族58
5.5.2 冪律分布族59
5.5.3 根據(jù)數(shù)據(jù)擬合泊松和冪律模型60
5.6 其他示例62
5.6.1 示例:公共汽車客流量問題…62
5.6.2 示例:社交網(wǎng)絡(luò)分析63
5.7 計算補充63
5.7.1 R中的圖形和可視化63
5.8 練習(xí)64
第6章 連續(xù)型概率模型66
6.1 隨機擲鏢游戲66
6.2 單值點的概率為零66
6.3 現(xiàn)在我們有個問題67
6.4 解決該問題的方法:累積分布函數(shù)67
6.4.1 累積分布函數(shù)67
6.4.2 既非離散也非連續(xù)的分布68
6.5 密度函數(shù)69
6.5.1 密度函數(shù)的性質(zhì)69
6.5.2 密度的直觀含義70
6.5.3 期望值71
6.6 個示例71
6.7 著名的連續(xù)分布參數(shù)族72
6.7.1 均勻分布72
6.7.2 正態(tài)(高斯)分布族73
6.7.3 指數(shù)分布族74
6.7.4 伽馬分布族76
6.7.5 貝塔分布族77
6.8 數(shù)學(xué)補充79
6.8.1 危險函數(shù)79
6.8.2 指數(shù)分布族與泊松分布族的對偶性79
6.9 計算補充80
6.9.1 R的integrate()函數(shù)80
6.9.2 從密度函數(shù)中抽樣的逆方法…80
6.9.3 從泊松分布中抽樣81
6.10 練習(xí)81
第二部分 統(tǒng)計基礎(chǔ)
第7章 統(tǒng)計學(xué):序言84
7.1 本章的重要性84
7.2 抽樣分布84
7.2.1 隨機抽樣84
7.3 樣本均值85
7.3.1 示例:玩具總體85
7.3.2 X的期望值和方差86
7.3.3 同樣的示例:玩具總體87
7.3.4 解釋87
7.3.5 筆記本視圖88
7.4 簡單隨機抽樣情況88
7.5 樣本方差89
7.5.1 σ2的直觀估計89
7.5.2 更易于計算的方法89
7.5.3 特殊情況:X為指示變量90
7.6 除以n還是n-190
7.6.1 統(tǒng)計偏差90
7.7 “標準誤差”的概念91
7.8 示例:Pima糖尿病研究91
7.9 別忘了:樣本≠總體93
7.10 模擬問題93
7.10.1 樣本估計93
7.10.2 無限總體93
7.11 觀測研究9