在大數(shù)據(jù)時代背景下,統(tǒng)計學(xué)作為數(shù)據(jù)分析領(lǐng)域的基礎(chǔ),被應(yīng)用于各行各業(yè),其方法發(fā)揮著
重要作用。為了更廣泛地普及統(tǒng)計學(xué)知識,培養(yǎng)更多的統(tǒng)計學(xué)人才,《商務(wù)統(tǒng)計學(xué)基礎(chǔ):從不確定性到人工智能》應(yīng)運(yùn)而生。
作為入門級圖書,《商務(wù)統(tǒng)計學(xué)基礎(chǔ):從不確定性到人工智能》內(nèi)容安排如下。第 1 章從不確定性出發(fā),講述統(tǒng)計學(xué)和不確定性的關(guān)
系,以及統(tǒng)計學(xué)中用于描述不確定性的各種概率模型。第 2 章是參數(shù)估計,系統(tǒng)講述統(tǒng)計學(xué)中矩
估計和極大似然估計兩種常用的參數(shù)估計方法,并基于兩種方法介紹各種常見概率分布中參數(shù)的
點(diǎn)估計和區(qū)間估計。第 3 章是假設(shè)檢驗,首先從不確定性的角度探討實(shí)際中的各種決策問題,幫
助讀者理解假設(shè)檢驗的思想和應(yīng)用場景,然后系統(tǒng)介紹假設(shè)檢驗的方法論及各種常見推廣。第 4
章是回歸分析,首先介紹回歸分析的思想和廣泛的應(yīng)用場景,然后系統(tǒng)地介紹各類常用模型,從
線性回歸到廣義線性回歸,最終落腳到兩種機(jī)器學(xué)習(xí)算法(決策樹、神經(jīng)網(wǎng)絡(luò))。
《商務(wù)統(tǒng)計學(xué)基礎(chǔ):從不確定性到人工智能》特別強(qiáng)調(diào)實(shí)際應(yīng)用,因此各個章節(jié)都輔以大量的實(shí)際案例,在介紹統(tǒng)計學(xué)基礎(chǔ)知識的同
時培養(yǎng)讀者使用統(tǒng)計學(xué)方法解決實(shí)際問題的能力。
理發(fā)的時候,Tony 老師總是希望跟我聊天,我想這也許是他們工作 KPI(Key Performance Indicator,關(guān)鍵績效指標(biāo))的一部分。但是,作為一個教書匠,我每天的正常工作狀態(tài)就是:開會、上課;開會、上課;開會、上課。等到下班后,實(shí)在是不想再多說一句話。這位 Tony 老師卻揪著我不依不饒,總是希望撬開我的嘴跟我說點(diǎn)啥。哥,您是做啥的?額,我是教書的。您教啥?額,我教統(tǒng)計學(xué)。聽到統(tǒng)計學(xué)三個字,Tony 老師的眼睛一下子亮了起來,說:那您一定特別會統(tǒng)計!額……然后現(xiàn)場就有點(diǎn)尷尬了。我知道他說的統(tǒng)計是啥,就是一堆表格唄。但是,這是我熱愛的統(tǒng)計學(xué)嗎?顯然不是呀!如果統(tǒng)計學(xué)就是數(shù)數(shù),那哪里需要一個學(xué)科去支持?但很遺憾的是,這就是社會大眾對統(tǒng)計學(xué)的一個極大的誤解,而這個誤解可能也影響了統(tǒng)計學(xué)的普及和發(fā)展。我們有責(zé)任去糾正它,給更廣泛的大眾普及統(tǒng)計學(xué)知識,為國家為社會培養(yǎng)更多的統(tǒng)計學(xué)人才,用我們的努力去促進(jìn)統(tǒng)計學(xué)在產(chǎn)業(yè)中的應(yīng)用。而要實(shí)現(xiàn)這個雄心壯志,就需要一本面向非統(tǒng)計學(xué)專業(yè)讀者的入門級書籍,而這也是我多年的夙愿,終于在北京大學(xué)出版社魏雪萍老師的督促下,還有菲菲老師和多位助教同學(xué)的支持下,完成本書并呈現(xiàn)給大家。
首先需要強(qiáng)調(diào)一點(diǎn),作為一個有將近二十年教齡的教書匠,隨著歲數(shù)的增加,似乎勇氣和信心是單調(diào)下降的。教書時間越長,就越告訴自己:我教的東西是沒有辦法保證絕對正確的。原因很簡單,任何一個理論的正確性,都會隨著人們認(rèn)知的增加,不停地被挑戰(zhàn)。例如,在遙遠(yuǎn)的古代,如果人們提出一個理論說大地是平的,那么這個理論應(yīng)該是正確的,因為該理論跟人們非常有限的物理活動范圍所產(chǎn)生的認(rèn)知是一致的。但是,后來人們進(jìn)入了大航海時代,再后來又進(jìn)入了太空時代,我們發(fā)現(xiàn)以前關(guān)于大地是平的理論無法解釋我們感知到的這個世界,因為我們的活動空間變大了太多,所以我們目前的理論說大地其實(shí)是一個球形。直到今天,該理論是正確的,因為該理論與人們當(dāng)前的物理活動范圍所產(chǎn)生的認(rèn)知是一致的。但是,隨著科學(xué)技術(shù)的進(jìn)步,會不會有一天未來的人們進(jìn)入了某種高維空間,回過頭來看地球的時候,是另外一個景象?鋪墊了這么多,我其實(shí)是想誠實(shí)地告訴大家:接下來本書所呈現(xiàn)的各種理論和觀點(diǎn),我都沒有能力保證它的絕對正確性。我能保證的是:第一,這是我多年深入而誠實(shí)的思考;第二,我忠實(shí)地想和你分享匯報,也請你審慎思考,批判性接受,真誠地希望你能夠多多提出批評意見,雖然我并不一定會被說服,但是我一定會認(rèn)真聆聽。
在給大家打了上面這個關(guān)于理論沒有絕對正確性的預(yù)防針后,我想分享下我對統(tǒng)計學(xué)理解的第一個執(zhí)念,這個執(zhí)念是統(tǒng)計學(xué)到底是研究什么的。我希望給統(tǒng)計學(xué)的核心研究內(nèi)容一個最簡單、直白、高度凝練的定義,將來再碰到 Tony 老師的時候,我能用一句話糾正他關(guān)于統(tǒng)計學(xué)的錯誤認(rèn)識。那么,在我的執(zhí)念中,統(tǒng)計學(xué)到底是研究什么的?答:不確定性。在我看來,統(tǒng)計學(xué)就是一個關(guān)于不確定性的學(xué)問,只有這個特點(diǎn),能夠?qū)⒔y(tǒng)計學(xué)準(zhǔn)確且唯一地與其他學(xué)科嚴(yán)格區(qū)分開,并彰顯它的獨(dú)特之處。很多學(xué)者可能認(rèn)為統(tǒng)計學(xué)是一個關(guān)于數(shù)據(jù)的學(xué)科。這顯然是一個有道理的觀點(diǎn),但是我并不太認(rèn)同。因為,關(guān)于數(shù)據(jù)的學(xué)科似乎不僅僅包括統(tǒng)計學(xué),在我看來,計算機(jī)、數(shù)學(xué)、運(yùn)籌優(yōu)化等領(lǐng)域也都是同數(shù)據(jù)高度相關(guān)的學(xué)科。如果標(biāo)準(zhǔn)稍微寬松一點(diǎn),其實(shí)所有的自然學(xué)科和社會學(xué)科都跟數(shù)據(jù)相關(guān)。畢竟,這是一個大數(shù)據(jù)時代了!所以,說統(tǒng)計學(xué)是一個關(guān)于數(shù)據(jù)的學(xué)科,這個說法有道理,但是并不準(zhǔn)確,因為它不能準(zhǔn)確地表達(dá)出統(tǒng)計學(xué)區(qū)別于其他學(xué)科的最獨(dú)特之處。在我看來,統(tǒng)計學(xué)是所有學(xué)科中唯一的以不確定性為最核心研究目標(biāo)的學(xué)科。為此,統(tǒng)計學(xué)的學(xué)習(xí)一定是從概率論開始,因為概率論是目前應(yīng)用最廣泛的關(guān)于不確定性測量的數(shù)學(xué)工具。所以,本書就是從這樣一個執(zhí)念開始的,那就是統(tǒng)計學(xué)不研究統(tǒng)計,統(tǒng)計學(xué)研究不確定性。
既然統(tǒng)計學(xué)研究不確定性,那么我們學(xué)習(xí)統(tǒng)計學(xué)的精彩旅程,就應(yīng)該從不確定性開始。為此,本書的開篇不是講任何數(shù)學(xué)模型,而是希望幫助大家了悟一個基本事實(shí),那就是:大千世界,小到個人,中到企業(yè)機(jī)構(gòu),大到國家、全世界,不確定性無處不在,而且非常重要,影響巨大。因此,非常有必要通過建制一個完備的學(xué)科,全面系統(tǒng)地研究不確定性,而這個學(xué)科就是統(tǒng)計學(xué)。為此,你需要了解不同的數(shù)據(jù)類型,以及適用于不同數(shù)據(jù)類型的概率模型。為了能夠用不同的概率模型去表達(dá)人們所看到的不確定性數(shù)據(jù),需要學(xué)習(xí)以極大似然估計和矩估計為核心的參數(shù)估計方法,并在這個基礎(chǔ)上學(xué)習(xí)以置信區(qū)間和假設(shè)檢驗為核心的統(tǒng)計學(xué)推斷方法,并因此獲得對不確定性問題做出科學(xué)決策的能力。為了進(jìn)一步理解不確定性的構(gòu)成,我們需要學(xué)習(xí)回歸分析,不僅僅是從技術(shù)層面,還要從思想層面去學(xué)習(xí)。什么是回歸分析?回歸分析是統(tǒng)計學(xué)中最核心的工具之一,它能幫助我們從不確定性現(xiàn)象中洞察確定性的規(guī)律。能幫助我們理解一個看似完全不確定性的現(xiàn)象,其中可能有一部分是具有確定性規(guī)律的,因此是可以被把握利用的。
通過對不確定性的利用,回歸分析能幫助我們?yōu)樾刨J業(yè)務(wù)提供風(fēng)控模型,為在線營銷提供精準(zhǔn)廣告和推薦算法,為量化投資提供自動化資產(chǎn)優(yōu)化建議,以及其他各種非常精彩且重要的實(shí)際應(yīng)用。那么,從純技術(shù)的角度看,什么是回歸分析?答:任何研究一個因變量Y 和解釋性變量X 之間相關(guān)關(guān)系的模型都是回歸分析。為此,人們需要根據(jù)Y 和X 的特點(diǎn),對它們之間可能存在的相關(guān)關(guān)系,做出必要的數(shù)學(xué)假設(shè)。這樣的假設(shè)可能是相對簡單的,這就產(chǎn)生了線性回歸模型和廣義線性回歸模型。當(dāng)然,也可以是非線性的,這就產(chǎn)生了各種機(jī)器學(xué)習(xí)算法(如決策樹、神經(jīng)網(wǎng)絡(luò))。其中尤其值得注意的是,多層神經(jīng)網(wǎng)絡(luò)模型構(gòu)成了深度學(xué)習(xí)算法的模型基礎(chǔ),它在非結(jié)構(gòu)化數(shù)據(jù)(如圖像、自然語言)的分析中獲得了巨大的成功,支撐了大量的人工智能應(yīng)用。
由此可見,本書的定位是非常獨(dú)特的統(tǒng)計學(xué)入門書籍。第一,它面向的人群廣泛,主要服務(wù)于非統(tǒng)計學(xué)的讀者,但是對統(tǒng)計學(xué)專業(yè)的同學(xué)來說,本書也應(yīng)該是一個不錯的參考書;第二,它充滿雄心壯志,從不確定性出發(fā),歷經(jīng)經(jīng)典統(tǒng)計學(xué)的內(nèi)容(如參數(shù)估計、假設(shè)檢驗、回歸分析),并最終抵達(dá)機(jī)器學(xué)習(xí)和人工智能的彼岸,希望為讀者未來的進(jìn)一步學(xué)習(xí),提供一個好的起點(diǎn);第三,它非常強(qiáng)調(diào)實(shí)際應(yīng)用,全書從頭到尾列舉了大量的實(shí)際案例。希望本書能一邊傳授統(tǒng)計學(xué)基礎(chǔ)知識,還能一邊幫助讀者了悟這些知識的實(shí)際用處。畢竟,編寫本書的目的不僅僅是普及統(tǒng)計學(xué)知識和培養(yǎng)統(tǒng)計學(xué)人才,還包括推動統(tǒng)計學(xué)在產(chǎn)業(yè)中的應(yīng)用,因此案例非常重要。
最后,感謝北京大學(xué)出版社的魏雪萍老師,沒有他的督促,本書難以完成。感謝北京大學(xué)出版社的劉云老師,感謝她為本書提供的各種建議。感謝菲菲老師,能夠被我拉上賊船,成為我最依賴的合作伙伴,一起完成這個辛苦的工作。感謝兩位特別給力的助教,他們分別是來自中國人民大學(xué)的袁雪瓊同學(xué)和來自北京交通大學(xué)的劉炯暉同學(xué)。兩位同學(xué)為本書的形成付出了非常辛苦的工作,也受了不少委屈,謝謝你們!此外,還要感謝購買本書的讀者,感謝你對統(tǒng)計學(xué)的好奇心。通過對本書的學(xué)習(xí),希望你能掌握一套獨(dú)特的方法論,能夠?qū)Σ淮_定性有更好的理解甚至把握,并因此為社會做出杰出的貢獻(xiàn)。
王漢生
王漢生 王菲菲
----------------------------
王漢生,北京大學(xué)光華管理學(xué)院商務(wù)統(tǒng)計與經(jīng)濟(jì)計量系,教授,博導(dǎo),系主任。1998年北京大學(xué)數(shù)學(xué)學(xué)院概率統(tǒng)計系本科畢業(yè),2001年美國威斯康星大學(xué)麥迪遜分校統(tǒng)計系博士畢業(yè)。2003年加入光華至今。國家杰出青年基金獲得者,全國工業(yè)統(tǒng)計學(xué)教學(xué)研究會青年統(tǒng)計學(xué)家協(xié)會創(chuàng)始會長,美國統(tǒng)計學(xué)會(ASA)Fellow,國際統(tǒng)計協(xié)會(ISI)Elected Member,英國皇家統(tǒng)計協(xié)會(RSS)、美國數(shù)理統(tǒng)計協(xié)會(IMS)、泛華國際統(tǒng)計協(xié)會(ICSA)的當(dāng)選會員。著有《數(shù)據(jù)思維》《數(shù)據(jù)資產(chǎn)論》(中國人民大學(xué)出版社出版)。
王菲菲,中國人民大學(xué)副教授,主要研究方向及代表性成果:感興趣的研究方向包括文本挖掘、大規(guī)模數(shù)據(jù)分析等,曾在《中國科學(xué)(數(shù)學(xué))》等國內(nèi)外高水平期刊發(fā)表20余篇文章。
第1章 不確定性的描述
1.1 從不確定性出發(fā) / 002
1.2? 連續(xù)型數(shù)據(jù) / 012
1.3 正態(tài)概率密度 / 023
1.4? t- 分布 / 037
1.5 指數(shù)分布 / 048
1.6? 0-1 分布 / 059
1.7 泊松分布 / 069
第2章 參數(shù)估計
2.1 矩估計 / 081
2.2 極大似然估計 / 090
2.3 正態(tài)分布均值的區(qū)間估計 / 101
2.4 正態(tài)分布方差的區(qū)間估計 / 113
2.5 其他分布參數(shù)的區(qū)間估計 / 125 ??
指數(shù)分布 / 125 ??
0-1 分布 / 129 ??
泊松分布 / 131 ??
一般分布的均值 / 133 ??
案例演示 / 134 ??
兩樣本問題 / 135
2.6 樣本量計算 / 138 ??
指數(shù)分布 / 145 ??
泊松分布 / 147 ??
0-1 分布 / 149 ??
一般分布 / 151
第3章假設(shè)檢驗
3.1 不確定性與決策 / 155
3.2 兩種不同類型的錯誤 / 167
3.3 為什么推翻原假設(shè) / 180
3.4 關(guān)于均值的假設(shè)檢驗問題 / 188
3.5 假設(shè)檢驗的各種推廣 / 200 ??
雙樣本檢驗 / 200 ??
方差檢驗 / 204 ??
雙單邊檢驗 / 209
3.6 假設(shè)檢驗中的 p 值 / 213
3.7 假設(shè)檢驗中的樣本量計算 / 222 ??
單邊假設(shè)檢驗 / 223 ??
雙邊假設(shè)檢驗 / 226 ??
雙單邊假設(shè)檢驗 / 230
第4章回歸分析
4.1 回歸分析是什么 / 237
4.2 數(shù)據(jù)類型與回歸模型 / 248 ??
第一式:線性回歸 / 248 ??
第二式:0-1 回歸 / 252 ??
第三式:定序回歸 / 254 ??
第四式:計數(shù)回歸 / 258 ??
第五式:生存回歸 / 260
4.3 線性回歸模型 / 266 ??
案例介紹 / 266 ??
描述分析 / 268 ??
理論模型 / 272 ??
關(guān)于殘差的討論 / 274 ??
參數(shù)估計 / 275 ??
假設(shè)檢驗 / 279
4.4 時間序列模型 / 283
4.5 0-1 回歸模型 / 297 ??
案例介紹 / 297 ??
描述分析 / 299 ??
模型描述 / 302 ??
參數(shù)估計與統(tǒng)計推斷 / 306
4.6 決策樹模型 / 311
4.7 神經(jīng)網(wǎng)絡(luò)模型 / 322