《非參數(shù)統(tǒng)計(附光盤第2版應(yīng)用統(tǒng)計學(xué)系列教材)》是非參數(shù)統(tǒng)計教材, 內(nèi)容從經(jīng)典非參數(shù)統(tǒng)計推斷到現(xiàn)代前沿, 包括基本概念、單一樣本的推斷問題、兩獨立樣本數(shù)據(jù)的位置和尺度推斷、多組數(shù)據(jù)位置推斷、分類數(shù)據(jù)的關(guān)聯(lián)分析、秩相關(guān)和分位數(shù)回歸、非參數(shù)密度估計、一元非參數(shù)回歸和數(shù)據(jù)挖掘與機器學(xué)習(xí)共計 9 章. 本書配有大量與社會、經(jīng)濟、金融、生物等專業(yè)相關(guān)的例題和習(xí)題, 還配置了一些實驗或案例. 方便結(jié)合 R軟件進行探索、研究.
《非參數(shù)統(tǒng)計(附光盤第2版應(yīng)用統(tǒng)計學(xué)系列教材)》可以作為高等院校統(tǒng)計、經(jīng)濟、金融、管理專業(yè)的本科生課程的教材, 也可以作為其他相關(guān)專業(yè)研究生的教材和教學(xué)參考書, 另外, 對廣大從事與統(tǒng)計相關(guān)工作的實際工作者也極具參考價值.
第 2版前言
習(xí)慣于用數(shù)據(jù)思考和決策的人都清楚 ,和二三十年前相比 ,現(xiàn)在的數(shù)據(jù)分析面臨著更大的挑戰(zhàn) .在咨詢領(lǐng)域 ,數(shù)據(jù)誤解、噪聲數(shù)據(jù)、快速成像所產(chǎn)生的危害呈指數(shù)增長 .研究顯示 ,今天大數(shù)據(jù)分析所涉及的數(shù)據(jù)所呈現(xiàn)出的復(fù)雜特征并沒有和幾十年前小規(guī)模數(shù)據(jù)的特征有多大區(qū)別 .此外 ,數(shù)據(jù)分析工具和封裝的程序越來越容易獲得 ,令人興奮的可視化技術(shù)越來越吸引年輕人的目光 ,越來越技術(shù)化的數(shù)據(jù)分析孤立于通過觀察并依循數(shù)據(jù)特點而進行的分析之外 .這些現(xiàn)象都表明我們的學(xué)生在尊重數(shù)據(jù)特點做出正確分析決定的能力方面訓(xùn)練不足.
經(jīng)過五年多的等待 ,《非參數(shù)統(tǒng)計》第二版終于面世了 ,我很欣慰 ,因為這次出版適逢大數(shù)據(jù)時代 ,算作是我和我的團隊獻給我一直深愛的數(shù)據(jù)分析事業(yè)的一份禮物吧!
《非參數(shù)統(tǒng)計》第一版獲得許多讀者和同行青睞 ,第二版在保留第一版全部優(yōu)點和特色基礎(chǔ)上,作了許多優(yōu)化、改進和創(chuàng)新 .這些優(yōu)化、改進和創(chuàng)新包括:
(1)內(nèi)容進行了全面更新 ,勘誤了每一章 ,擴充了 U統(tǒng)計量理論 ,添加了新的非參數(shù)回歸內(nèi)容.
。2)可讀性、易讀性進一步提高 .為了做到這一點 ,我們對每一個章節(jié)的每一個句子 ,都經(jīng)過了字斟句酌、反復(fù)推敲 ,盡可能使用短句子 ,同時 ,繼續(xù)邀請優(yōu)秀的本科生參與試讀教材 ,充分聽取他們的意見 ,力爭使第二版的內(nèi)容更加生動、深入淺出和言簡意賅.
。3)調(diào)整結(jié)構(gòu)體系 ,將原來的第一章 R基礎(chǔ)調(diào)整至附錄 ,原來的十章依次分九章排列 ——為每一章添加了一個實驗或案例 ,強調(diào)了結(jié)合問題背景根據(jù)復(fù)雜數(shù)據(jù)分布特點進行數(shù)據(jù)分析和信息解讀的培養(yǎng)思想 .這些實驗和案例可以激發(fā)學(xué)生的學(xué)習(xí)興趣,也為教師提供了豐富生動的教學(xué)內(nèi)容.
在編寫和修訂的過程中 ,對我支持最多的是我的家人和我的團隊 .特別感謝我的助教王聰同學(xué)協(xié)助整理了大部分案例和勘誤表 ,許泳鐸同學(xué)調(diào)整了部分實驗 R程序,尤其是褚挺進老師加盟了我的教學(xué)團隊 ,協(xié)助修訂了第 8章和第 9章,最后,還要感謝清華大學(xué)出版社編輯負責(zé)的編輯校對工作.
王星
2014年 6月 10日于中國人民大學(xué)應(yīng)用統(tǒng)計中心 and統(tǒng)計學(xué)院
第 1章基本概念 1
1.1非參數(shù)統(tǒng)計概念與產(chǎn)生.1
1.2假設(shè)檢驗回顧 5
1.3經(jīng)驗分布和分布探索 10
1.3.1經(jīng)驗分布 .10
1.3.2生存函數(shù) .12
1.4檢驗的相對效率 .15
1.5分位數(shù)和非參數(shù)估計 18
1.6秩檢驗統(tǒng)計量 . 21
1.7 U統(tǒng)計量. .24
1.8實驗.29習(xí)題 . .34
第 2章單一樣本的推斷問題 . 37
2.1符號檢驗和分位數(shù)推斷 . 37
2.1.1基本概念 .37
2.1.2大樣本計算 41
2.1.3符號檢驗在配對樣本比較中的應(yīng)用 43
2.1.4分位數(shù)檢驗 ——符號檢驗的推廣. .44
2.2 Cox-Staut趨勢存在性檢驗 45
2.3隨機游程檢驗 . 49
2.4 Wilcoxon符號秩檢驗 . 52
2.4.1基本概念 .52
2.4.2 Wilcoxon符號秩檢驗和抽樣分布 55
2.5單組數(shù)據(jù)的位置參數(shù)置信區(qū)間估計. .61
2.5.1順序統(tǒng)計量位置參數(shù)置信區(qū)間估計 61
2.5.2基于方差估計法的位置參數(shù)置信區(qū)間估計 . 64
2.6正態(tài)記分檢驗 . 68
2.7分布的一致性檢驗 71
2.7.1 χ2擬合優(yōu)度檢驗 . 71
2.7.2 Kolmogorov-Smirnov正態(tài)性檢驗.75
2.7.3 Liliefor正態(tài)分布檢驗 76
2.8單一總體漸近相對效率比較 .77
2.9實驗.80習(xí)題 . .87
第 3章兩獨立樣本數(shù)據(jù)的位置和尺度推斷 . 90
3.1 Brown-Mood中位數(shù)檢驗 . .91
3.2 Wilcoxon-Mann-Whitney秩和檢驗 93
3.3 Mood方差檢驗 . 99
3.4 Moses方差檢驗 101
3.5實驗 . 103習(xí)題.106
第 4章多組數(shù)據(jù)位置推斷 .108
4.1試驗設(shè)計和方差分析的基本概念回顧 108
4.2 Kruskal-Wallis單因素方差分析 115
4.3 Jonckheere-Terpstra檢驗.122
4.4 Friedman秩方差分析法 126
4.5隨機區(qū)組數(shù)據(jù)的調(diào)整秩和檢驗 . 131
4.6 Cochran檢驗 133
4.7 Durbin不完全區(qū)組分析法 . 136
4.8案例 . 138習(xí)題.143
第 5章分類數(shù)據(jù)的關(guān)聯(lián)分析 145
5.1 r × s列聯(lián)表和 χ2獨立性檢驗 . 145
5.2 χ2齊性檢驗 . 147
5.3 Fisher精確性檢驗 . 148
5.4 Mantel-Haenszel檢驗 151
5.5關(guān)聯(lián)規(guī)則.153
5.5.1關(guān)聯(lián)規(guī)則基本概念 153
5.5.2 Apriori算法 154
5.6 Ridit檢驗法 . 156
5.7對數(shù)線性模型 162
5.7.1對數(shù)線性模型的基本概念 . 163
5.7.2模型的設(shè)計矩陣 168
5.7.3模型的估計和檢驗 169
5.7.4高維對數(shù)線性模型和獨立性 170
5.8案例 . 173習(xí)題.177
第 6章秩相關(guān)和分位數(shù)回歸 181
6.1 Spearman秩相關(guān)檢驗. .181
6.2 Kendall τ相關(guān)檢驗 185
6.3多變量 Kendall協(xié)和系數(shù)檢驗. .189
6.4 Kappa一致性檢驗 . 192
6.5中位數(shù)回歸系數(shù)估計法 194
6.5.1 Brown-Mood方法.194
6.5.2 Theil方法 196
6.5.3關(guān)于 α和 β的檢驗 . 197
6.6線性分位回歸模型 . 199
6.7案例 . 202習(xí)題.207
第 7章非參數(shù)密度估計 . 209
7.1直方圖密度估計. .209
7.1.1基本概念. .209
7.1.2理論性質(zhì)和最優(yōu)帶寬 . .211
7.1.3多維直方圖 . 213
7.2核密度估計 213
7.2.1核函數(shù)的基本概念 213
7.2.2理論性質(zhì)和帶寬 215
7.2.3多維核密度估計 218
7.2.4貝葉斯決策和非參數(shù)密度估計 221
7.3 k近鄰估計 .224
7.4案例 . 225習(xí)題.232
第 8章一元非參數(shù)回歸 . 234
8.1核回歸光滑模型. .235
8.2局部多項式回歸. .237
8.2.1 局部線性回歸 . 237
8.2.2 局部多項式回歸的基本原理 239
8.3 LOWESS穩(wěn)健回歸 240
8.4 k近鄰回歸 .241
8.5正交序列回歸 243
8.6罰最小二乘法 245
8.7樣條回歸.246
8.7.1 模型 246
8.7.2 樣條回歸模型的節(jié)點 . .247
8.7.3 常用的樣條基函數(shù) 248
8.7.4 樣條模型的自由度 250
8.8案例 . 251習(xí)題.254
第 9章數(shù)據(jù)挖掘與機器學(xué)習(xí) 255
9.1一般分類問題 255
9.2 Logistic回歸 . 256
9.2.1 Logistic回歸模型 . 257
9.2.2 Logistic回歸模型的極大似然估計 258
9.2.3 Logistic回歸和線性判別函數(shù) LDA的比較 259
9.3 k近鄰 . 261
9.4決策樹 . 262
9.4.1 決策樹基本概念 262 CART.264
9.4.2
9.4.3 決策樹的剪枝 . 265
9.4.4 回歸樹 266
9.4.5 決策樹的特點 . 266
9.5 Boosting . 268
9.5.1 Boosting方法 . 268
9.5.2 AdaBoost.M1算法 268
9.6支持向量機 271
9.6.1 最大邊距分類 . 271
9.6.2支持向量機問題的求解 . 273
9.6.3支持向量機的核方法 . .275
9.7隨機森林樹 277
9.7.1隨機森林樹算法的定義 . 277
9.7.2隨機森林樹算法的性質(zhì) . 277
9.7.3如何確定隨機森林樹算法中樹的節(jié)點分裂變量 . 278
9.7.4隨機森林樹的回歸算法 . 279
9.7.5有關(guān)隨機森林樹算法的一些評價 279
9.8多元自適應(yīng)回歸樣條 . 280
9.8.1 MARS與 CART的聯(lián)系 282
9.8.2 MARS的一些性質(zhì) 282
9.9案例 . 283習(xí)題.294
附錄 AR基礎(chǔ) 297
A.1 R基本概念和操作.298
A.1.1 R環(huán)境 . 298
A.1.2常量 299
A.1.3算術(shù)運算 . 299
A.1.4賦值 300
A.2向量的生成和基本操作 300
A.2.1向量的生成.300
A.2.2向量的基本操作 302
A.2.3向量的運算.305
A.2.4向量的邏輯運算 305
A.3高級數(shù)據(jù)結(jié)構(gòu) . 306
A.3.1矩陣的操作和運算 . 306
A.3.2數(shù)組 308
A.3.3數(shù)據(jù)框 . 308
A.3.4列表 309
A.4數(shù)據(jù)處理 309
A.4.1保存數(shù)據(jù) . 309
A.4.2讀入數(shù)據(jù) . 310
A.4.3數(shù)據(jù)轉(zhuǎn)換 . 311
A.5編寫程序 311
A.5.1循環(huán)和控制.311
A.5.2函數(shù) 312
A.6基本統(tǒng)計計算 . 313
A.6.1抽樣 313
A.6.2統(tǒng)計分布 . 313
A.7 R的圖形功能 . 314
A.7.1 plot函數(shù) . 315
A.7.2多圖顯示 . 315
A.8 R幫助和包 . .317
A.8.1 R幫助 . 317
A.8.2 R包 317習(xí)題.317
附錄 B常用統(tǒng)計分布表 . 321
參考文獻 .362