《缺失數(shù)據(jù)的模型檢驗及其應(yīng)用》主要研究缺失數(shù)據(jù)模型的檢驗問題. 《缺失數(shù)據(jù)的模型檢驗及其應(yīng)用》共分為8 章. 第1 章主要介紹數(shù)據(jù)的不同缺失機制, 包括協(xié)變量缺失和因變量缺失, 以及在不同缺失機制下常見的統(tǒng)計分析方法. 第2 章介紹一些常見的檢驗方法, 主要包括蒙特卡羅檢驗和得分類型的檢驗. 在蒙特卡羅檢驗這部分, 著重介紹參數(shù)和非參數(shù)蒙特卡羅檢驗方法. 第3 章介紹在數(shù)據(jù)不存在缺失的情況下, 幾種常見模型的檢驗方法及其性質(zhì). 第4 章是關(guān)于在因變量缺失時, 部分線性模型中非線性部分是否符合某類參數(shù)結(jié)構(gòu)的擬合優(yōu)度檢驗問題. 第5 章討論協(xié)變量隨機缺失時, 廣義線性模型本身的擬合優(yōu)度檢驗問題. 第6 章對于變系數(shù)模型, 在響應(yīng)變量缺失的情況下, 研究變系數(shù)部分是否具有一定參數(shù)結(jié)構(gòu)的檢驗. 第7 章研究的是協(xié)變量缺失時候的統(tǒng)計推斷問題. 第8 章的主要內(nèi)容是因變量隨機缺失的情況下, 變系數(shù)模型本身的擬合優(yōu)度檢驗問題. 第4 章到第8 章的檢驗統(tǒng)計量主要采用蒙特卡羅檢驗和得分類型的檢驗.
更多科學(xué)出版社服務(wù),請掃碼獲取。
缺失數(shù)據(jù)越來越多的存在于生物統(tǒng)計等應(yīng)用領(lǐng)域,如果對缺失數(shù)據(jù)用錯誤的模型擬合,做出的統(tǒng)計推斷可能是無效的。所以,關(guān)于缺失數(shù)據(jù)模型的擬合優(yōu)度問題,無論對于理論研究還是實際應(yīng)用研究都具有重要的意義。目前關(guān)于缺失數(shù)據(jù)模型檢驗的中文書很少,《缺失數(shù)據(jù)的模型檢驗及其應(yīng)用》主要研究了此問題,對于理論和實際應(yīng)用工作者都具有借鑒意義。
中國人民大學(xué)統(tǒng)計學(xué)院副教授,醫(yī)學(xué)與生物統(tǒng)計教研室主任。先后訪問過香港大學(xué),香港浸會大學(xué)和美國北卡羅萊納大學(xué)教堂山分校。近年來一直從事模型的擬和優(yōu)度檢驗,隨機缺失數(shù)據(jù),兩階段抽樣數(shù)據(jù)以及縱向數(shù)據(jù)分析的研究。今年來承擔(dān)了“新世紀優(yōu)秀人才計劃”,“北京市科技新星計劃”,國家自然科學(xué)面上基金,國家自然科學(xué)青年基金和教育部人文社科基金等多項科研課題。在Biometrka, Biostatistics, Statistica Sinica , Scandinavian Journal of Statistics , Journal of Multivariate Analysis等國際重要期刊發(fā)表和接受SCI論文24篇。
目錄
前言
符號表
第1章 缺失數(shù)據(jù) 1
1.1 協(xié)變量缺失機制 1
1.2 協(xié)變量缺失的處理方法 4
1.2.1 完整個體分析 4
1.2.2 基于插補數(shù)據(jù)的方法 4
1.2.3 基于似然的方法 6
1.3 響應(yīng)變量缺失規(guī)制 8
1.4 響應(yīng)變量缺失的處理方法 9
第2章 常用的一些檢驗方法 11
2.1 蒙特卡羅檢驗 11
2.1.1 參數(shù)蒙特卡羅檢驗 11
2.1.2 非參數(shù)蒙特卡羅檢驗 12
2.2 得分類型的檢驗 15
第3章 完全數(shù)據(jù)模型的假設(shè)檢驗 19
3.1 廣義線性模型的研究 19
3.1.1 統(tǒng)計量的漸近性質(zhì) 20
3.1.2 蒙特卡羅近似 21
3.2 部分線性模型的研究 22
3.3 變系數(shù)模型的關(guān)于模型的檢驗 22
3.3.1 檢驗統(tǒng)計量及其極限性質(zhì) 25
3.3.2 蒙特卡羅近似 27
3.4 變系數(shù)模型的關(guān)于回歸系數(shù)的檢驗 28
3.4.1 檢驗步驟 30
3.4.2 檢驗統(tǒng)計量的近似表現(xiàn) 31
第4章 因變量缺失時部分線性模型擬合優(yōu)度檢驗 34
4.1 引言 34
4.2 完全數(shù)據(jù)的構(gòu)造以及模型的估計 35
4.3 檢驗統(tǒng)計量及其漸近性質(zhì) 36
4.4 蒙特卡羅逼近 38
4.5 數(shù)值分析 40
4.5.1 模擬分析 40
4.5.2 實際數(shù)據(jù)分析 43
4.6 定理的證明 44
第5章 協(xié)變量隨機缺失時廣義線性模型的擬合優(yōu)度檢驗 53
5.1 檢驗步驟 54
5.1.1 檢驗統(tǒng)計量的構(gòu)造 54
5.1.2 檢驗統(tǒng)計量的極限性質(zhì) 56
5.2 數(shù)值分析 57
5.2.1 模擬研究 57
5.2.2 實例分析 61
5.3 定理的證明 61
第6章 響應(yīng)變量缺失時變系數(shù)模型的非參數(shù)檢驗 71
6.1 引言 71
6.2 檢驗統(tǒng)計量的構(gòu)造 72
6.3 統(tǒng)計量的漸近性質(zhì) 74
6.4 蒙特卡羅近似 75
6.5 數(shù)據(jù)分析 77
6.5.1 模擬研究 77
6.5.2 應(yīng)用于一個環(huán)境數(shù)據(jù) 81
6.6 定理的證明 82
第7章 協(xié)變量隨機缺失時部分線性模型的擬合優(yōu)度檢驗 92
7.1 引言 92
7.2 檢驗步驟 93
7.2.1 檢驗統(tǒng)計量的構(gòu)建 93
7.2.2 檢驗統(tǒng)計量的漸近性質(zhì) 95
7.3 數(shù)據(jù)分析 97
7.3.1 模擬研究 97
7.3.2 實際數(shù)據(jù)分析 100
7.4 定理的證明 101
第8章 響應(yīng)變量隨機缺失時變系數(shù)模型的擬合優(yōu)度檢驗 108
8.1 引言 108
8.2 檢驗統(tǒng)計量的構(gòu)造 109
8.3 漸進性質(zhì) 111
8.4 蒙特卡羅近似 112
8.5 數(shù)據(jù)分析 113
8.5.1 模擬研究 113
8.5.2 應(yīng)用于一個環(huán)境數(shù)據(jù)集 116
8.6 定理的證明 116
參考文獻 122
索引 127
第1 章缺失數(shù)據(jù)
1.1 協(xié)變量缺失機制
在醫(yī)學(xué)和流行病學(xué)等應(yīng)用領(lǐng)域,協(xié)變量缺失處處存在.數(shù)據(jù)缺失機制對于數(shù)據(jù)的統(tǒng)計推斷是非常重要的,不同的缺失機制會導(dǎo)致不同的似然函數(shù),進而得出不同的統(tǒng)計推斷結(jié)果.缺失機制的概念是由Rubin(1976)提出的,主要分為三大類:隨機缺失MAR(missingatrandom)、完全隨機缺失MCAR(missingcompletelyatrandom)和非隨機缺失NMAR(notmissingatrandom),其中非隨機缺失也稱為不可忽略缺失(nonignorablemissingness).
用Y表示響應(yīng)變量,(X,Z)表示協(xié)變量,δ表示協(xié)變量X是否缺失,等于1表示觀測到,等于0表示缺失.以下給出協(xié)變量X三種不同缺失的定義.
(1)完全隨機缺失,也就是協(xié)變量X是否缺失與協(xié)變量Z和響應(yīng)變量Y沒有任何關(guān)系.用公式表示為P(δ=1Y,X,Z)=P(δ=1).
(2) 隨機缺失,也就是協(xié)變量|X缺失只和協(xié)變量Z和響應(yīng)變量Y有關(guān),與X本身沒有關(guān)系.用公式表示為P(δ=1|Y,X,Z)=P(δ=1|Y,Z).
(3)非隨機缺失,在這種缺失機制下,協(xié)變量X缺失可能與Z和Y有關(guān),也可能與X本身有關(guān).
下面給出一個模擬說明上述所提到的三種不同的協(xié)變量缺失機制.假定數(shù)據(jù)來自如下模型
Y=β0+β1X+ε,(1.1.1)
設(shè)定(β0,β1)=(1,1),X和ε獨立且都來自標準正態(tài)分布.如下三種不同缺失函數(shù)分別表示三種不同的缺失機制.
(1)P(δ=1)=0.6;
(2)P(δY)=0.30,如果Y.1.5,否則=0.95;
(3)P(δ||Y,X)=0.40,如果|| X+Y.1.5,否則=0.90.
這三種缺失機制分別是完全隨機缺失、只依賴響應(yīng)變量Y的缺失,以及既依賴于X也依賴Y的缺失.在這三種不同的缺失機制下,數(shù)據(jù)缺失的概率都等于或者約等于0.6.
我們隨機產(chǎn)生200組數(shù)據(jù),圖1.1.1(a),(b),(c)和(d)分別表示數(shù)據(jù)完全觀測到的情況,第一、第二以及第三種缺失機制下得到的數(shù)據(jù).從圖1.1.1中可以看出,圖1.1.1(b)是圖1.1.1(a)中的數(shù)據(jù)隨機缺失40%的數(shù)據(jù);圖1.1.1(c)可以明顯看出在|Y | >1.5時,缺失的概率明顯小于|Y | .1.5的情況;圖1.1.1(c)也可以看到在X+Y.1.5的缺失概率明顯