yasmine,h网站免费wum

　　眾所周知，在生活中統(tǒng)計學無處不在，每件事、每個人似乎都可以用統(tǒng)計數(shù)字來加以說明。特別是進入大數(shù)據(jù)時代以后，統(tǒng)計學更是成為炙手可熱的學問，它可以幫我們解決很多重要的社會問題，并對“黑天鵝”事件和未來做出預測。
　　但不可否認的是，統(tǒng)計學本身因為囊括大量的數(shù)學內(nèi)容及專業(yè)術(shù)語，以至于讓人覺得高深莫測、很難親近。
　　《赤裸裸的統(tǒng)計學》的作者查爾斯·惠倫“扒光”了統(tǒng)計學“沉悶的外衣”，用生活中有趣的案例、直觀的圖表、生動詼諧的語言風格，徹底揭開了統(tǒng)計學、大數(shù)據(jù)和數(shù)字的“神秘面紗”，讓我們知道權(quán)威期刊、媒體新聞、民意調(diào)研中公布的數(shù)字從何而來，輕松掌握判斷這些統(tǒng)計數(shù)字“是否在撒謊”的秘籍。同時，作者還將統(tǒng)計學的工具帶入日常生活中，告訴我們?yōu)槭裁床灰I彩票，為什么你家附近的商場會知道你懷孕的消息并給你寄來紙尿褲的優(yōu)惠券，等等。
　　大數(shù)據(jù)時代你必須掌握的統(tǒng)計學知識，全部都在《赤裸裸的統(tǒng)計學》中。從今天開始，好好使用統(tǒng)計學和數(shù)據(jù)吧！

　　假設(shè)你所生活的城市正在舉辦一場馬拉松比賽。來自世界各國的運動員們齊聚一堂，準備一決高下，但他們中的許多人都不會說英語。按照比賽組委會的安排，每位運動員在比賽當天的早上簽到之后，會被隨機分配到一輛駛往起點的長途客車。不湊巧的是，其中的一輛長途客車沒有按規(guī)定到達比賽現(xiàn)場，為了省去大量額外的運算，我們假設(shè)這輛客車上沒有一個人有手機，而且車里也沒有裝載全球定位系統(tǒng)（GPS）設(shè)備。作為市民中的一員，你加入了搜尋長途客車的隊伍。
　　偏偏就那么巧，在你家附近有一輛拋錨的長途客車，車上坐著一大群面露不快的國際乘客，他們中沒有一個人會說英語。這肯定就是那輛失蹤的車，你將會成為這座城市的英雄！但就在此時，一個疑惑出現(xiàn)在你的腦中：這輛車上的乘客看上去都“不瘦”，準確地說，他們都很胖。粗略掃一眼這些人，你估計這些乘客的平均體重至少有220磅（100公斤）。隨機分配的馬拉松運動員的體重不可能這么重，你打開對講機對搜尋總部匯報道：“不是這輛客車，請繼續(xù)搜尋�！�
　　進一步的調(diào)查證實了你最初的判斷是正確的。趕到現(xiàn)場的翻譯人員經(jīng)過一番交流后，你終于知道這輛拋錨的客車原本是要前往國際香腸節(jié)會場的，正好這一屆的香腸節(jié)也在這座城市舉辦，連日期都碰巧相同。而且從視覺角度考慮，參加香腸節(jié)的人完全有可能也穿著寬松的運動長褲。
　　祝賀你！如果你能夠體會上述的推理過程，也就是說，通過快速觀察車上乘客的體型來判斷他們并非馬拉松運動員，那么你就已經(jīng)領(lǐng)會了中心極限定理的基本理念，剩下的工作就是在這個基本框架下充實細節(jié)了。一旦你理解了中心極限定理，統(tǒng)計推斷的絕大多數(shù)形式將會變得非常直觀。
　　中心極限定理的核心要義就是，一個大型樣本的正確抽樣與其所代表的群體存在相似關(guān)系。當然，每個樣本之間肯定會存在差異（比如前往馬拉松起點的這么多輛客車，每輛客車乘客的組成都不可能完全相同），但是任一樣本與整體之間存在巨大差異的概率是較低的。正是因為這個邏輯，讓你對那輛載滿肥胖乘客的拋錨客車做出了快速判斷。的確有胖人參加馬拉松比賽，每一次馬拉松比賽中都會有幾百名參賽者的體重在200磅以上，但絕大多數(shù)的馬拉松運動員還是比較瘦的。因此，如此之多的“重量級”運動員被隨機安排到同一輛客車上的概率可以說是很低的，所以你完全有理由認為這不是那輛失蹤的馬拉松客車。當然，有可能你的判斷是錯的，但概率告訴我們你更有可能是對的。
　　這就是中心極限定理背后的基本經(jīng)驗。如果我們再附加一些統(tǒng)計學工具，就能將正確或錯誤的可能性進行量化。例如，在一場有10000名選手參加的馬拉松比賽中，運動員的平均體重為155磅，我們可以算出，一個包含60名選手（也就是一輛客車的載客量）的隨機樣本的平均體重大于或等于220磅的概率不足1/100。但在此刻，讓我們還是從直覺出發(fā)進行計算。通過運用中心極限定理，我們能夠得出如下推理，這些推理都將會在下一章里進行深入闡述。
　　1.如果我們掌握了某個群體的具體信息，就能推理出從這個群體中正確抽取的隨機樣本的情況。舉個例子，假設(shè)某學校的校長手里有本校所有學生的統(tǒng)考成績（平均分、標準差等），這就相當于一個相關(guān)人口數(shù)據(jù)，再過一個星期的時間，區(qū)領(lǐng)導將會來學校隨機抽取100名學生進行一次類似統(tǒng)考的測驗，這100名學生的成績—也就是一個樣本，將會作為考核該校教學質(zhì)量的指標。
　　隨機抽取的這100名學生的考試成績是否能夠準確地反映出全校學生的平均水平呢？校長需要為此擔心嗎？根據(jù)中心極限定理，這100名學生作為一個隨機樣本，其平均成績不會與全校學生的平均成績產(chǎn)生較大差異。
　　2.如果我們掌握了某個正確抽取的樣本的具體信息（平均數(shù)和標準差），就能對其所代表的群體做出令人驚訝的精確推理。從定理的使用角度來看，這與上一點內(nèi)容正好相反。還是以上述假設(shè)為例，如果你是區(qū)領(lǐng)導，想要對本區(qū)域內(nèi)的各個學校進行教學質(zhì)量考核，與校長不同的是，你手中并沒有（或不信任）某所學校所有學生的統(tǒng)考成績，因此就有必要對每所學校進行抽樣測試，也就是隨機抽取100名學生參加一場類似統(tǒng)考的測驗。
　　作為主管教育的領(lǐng)導，你覺得僅參考100名學生的成績就對整所學校的教學質(zhì)量做出判斷是可行的嗎？答案是可行的。中心極限定理告訴我們，一個正確抽取的樣本不會與其所代表的群體產(chǎn)生較大差異，也就是說，樣本結(jié)果（隨機抽取的100名學生的考試成績）能夠很好地體現(xiàn)整個群體的情況（某所學校全體學生的測試表現(xiàn)）。
　　3.如果我們掌握了某個樣本的數(shù)據(jù)，以及某個群體的數(shù)據(jù)，就能推理出該樣本是否就是該群體的樣本之一。這就是我們在本章一開始的時候所舉的那個馬拉松比賽失蹤客車的例子。已知馬拉松參賽選手的平均體重（估算），以及那輛拋錨客車上所有乘客的平均體重（目測），通過中心極限定理，我們就能計算出某個樣本（客車上的肥胖乘客）屬于某個群體（馬拉松比賽選手）的概率是多少，如果概率非常低，那么我們就能自信滿滿地說該樣本不屬于該群體（例如，客車上的乘客看上去真的不像是一群前往馬拉松比賽起點的運動員）。
　　4.最后，如果我們已知兩個樣本的基本特性，就能推理出這兩個樣本是否取自同一個群體。讓我們回到那個（越來越荒謬的）客車的例子上。我們現(xiàn)在得知這座城市即將同時舉辦馬拉松比賽和國際香腸節(jié)，假設(shè)這兩個盛會都將會迎來數(shù)以千計的參與者，而且他們都乘坐主辦方安排的客車前往會場，因此客車上要么是隨機安排的馬拉松運動員，要么是隨機安排的香腸愛好者。進一步假設(shè)有兩輛客車在路上撞在一起了（我已經(jīng)承認這是一個荒謬的例子，所以還請諸位讀者勉強讀下去吧），作為這座城市的管理者，你被派往現(xiàn)場了解事故情況，看看這兩輛客車是不是都前往同一個地點（馬拉松比賽或香腸節(jié)）。讓人不可思議的是，兩輛客車上的乘客都不會說英語，但到場的醫(yī)護人員給你提供了一份關(guān)于這兩輛車上的乘客體重的詳細信息。
　　僅從這一點信息，你就能推理出這兩輛客車前往的是相同的會場還是不同的會場。請再次用你的直覺進行判斷，假設(shè)其中一輛客車上乘客的平均體重為157磅，標準差為11磅（也就是說絕大部分乘客的體重為146~168磅）。而另一輛客車上乘客的平均體重為211磅，標準差為21磅（即絕大部分乘客的體重為190~232磅）。此刻請忘掉所有的統(tǒng)計學公式，僅憑邏輯做出判斷：這兩輛客車上的乘客是從同一個群體中隨機抽取的樣本嗎？
　　不是。一個更有可能的情形是：其中一輛客車上是馬拉松運動員，而另一輛客車上則是香腸愛好者。除了平均體重的不同以外，想必你還注意到了兩輛客車乘客之間的體重差異要遠大于各客車內(nèi)部乘客的體重差異，總重量較輕的客車里高于平均值一個標準差的乘客體重（168磅），但還是輕于另一輛客車上低于平均值一個標準差的乘客體重（190磅），這一點表明（無論從統(tǒng)計學的角度還是從邏輯的角度）這兩個樣本有可能來自不同的群體。
　　如果憑借直覺能理解到這一步的話，就說明你已經(jīng)理解了93.2%的中心極限定理了。我們需要更進一步，在直覺背后加上一些技術(shù)支撐。顯而易見，當你登上一輛拋錨的客車，發(fā)現(xiàn)里面坐滿了身穿寬松運動褲的“肥胖”乘客時，你的直覺會告訴你他們不會是馬拉松運動員。而中心極限定理能夠讓你在直覺的基礎(chǔ)上更上一層樓，為你的判斷提供數(shù)據(jù)支持。
　　……

你還可能感興趣

我要評論