R統(tǒng)計(jì)與數(shù)據(jù)可視化:社會(huì)科學(xué)數(shù)據(jù)分析實(shí)踐(全彩)
定 價(jià):169 元
- 作者:(美)David S. Brown(戴維 S · 布朗)
- 出版時(shí)間:2023/9/1
- ISBN:9787121461910
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:C819
- 頁碼:504
- 紙張:
- 版次:01
- 開本:16開
書的目的是講解數(shù)據(jù)分析的方法、邏輯、藝術(shù)與實(shí)踐。全書共17章,第1章介紹了R、RStudio和R Markdown的安裝和使用,第2章介紹了數(shù)據(jù)分析的動(dòng)機(jī)和四個(gè)構(gòu)成要素:①描述數(shù)據(jù)并形成假設(shè)②模型的構(gòu)建與估計(jì)③診斷④提出下一個(gè)問題,后續(xù)章節(jié)將按照數(shù)據(jù)分析構(gòu)成要素的順序來組織;對數(shù)據(jù)了解得越多,我們就越能夠提出更好的問題,形成更好的假設(shè),描述數(shù)據(jù)相關(guān)的概念和所需的工具,將在第3~9章中詳述;模型的構(gòu)建與估計(jì)是一個(gè)應(yīng)該在理論和證據(jù)間來回往復(fù)迭代的過程,關(guān)于構(gòu)建模型的練習(xí)將在第10~14章中進(jìn)行;診斷既能幫助我們發(fā)現(xiàn)問題,又能幫助我們發(fā)掘有意義的關(guān)聯(lián),形成額外的解釋或假設(shè),關(guān)于診斷將會(huì)在第15章和第16章中詳述;第17章將討論許多涉及二元因變量的問題,附錄將提供創(chuàng)建其他新假設(shè)的技巧和竅門。
David S. Brown(戴維 S · 布朗):科羅拉多大學(xué)博爾德分校政治學(xué)教授和社會(huì)科學(xué)系主任。獲得了加利福尼亞大學(xué)洛杉磯分校的政治學(xué)博士學(xué)位,并且是科羅拉多大學(xué)博爾德分校行為科學(xué)研究所肯尼斯·博爾。ㄋ_辟了多個(gè)經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)研究領(lǐng)域)的首屆博士后研究員。在加入科羅拉多大學(xué)政治學(xué)系之前,他曾在萊斯大學(xué)擔(dān)任助理教授。他研究的是比較政治學(xué),側(cè)重于體制及其對經(jīng)濟(jì)發(fā)展的影響。他的研究成果已發(fā)表在《美國政治科學(xué)評論》(American Political Science Review)、《美國政治學(xué)期刊》(American Journal of Political Science)、《英國政治學(xué)期刊》(British Journal of Political Science)和《美國地理學(xué)家協(xié)會(huì)年鑒》(Annals of the Association of American Geographers)上。
李嘉平:曾在華大基因從事生物信息分析相關(guān)工作,目前就職于廣西醫(yī)科大學(xué)第一附屬醫(yī)院(廣西心腦血管疾病防治精準(zhǔn)醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室)。他是R布道師,希望能夠通過翻譯傳播和推廣R的應(yīng)用與價(jià)值;亦是R鐵桿用戶,具有豐富的生物信息分析經(jīng)驗(yàn),擅長使用R和Python進(jìn)行各類數(shù)據(jù)處理以及數(shù)據(jù)可視化。曾負(fù)責(zé)生物信息培訓(xùn)中所有R相關(guān)課程的設(shè)計(jì)與授課。對新技術(shù)始終抱有極大的熱情,喜歡去體驗(yàn)?zāi)切┠壳叭圆煌晟频星熬暗男录夹g(shù),并享受這個(gè)過程帶來的樂趣與啟發(fā)。
第1 章 ? 入門指南 001
概述 001
R、RStudio 和R Markdown 002
對象與函數(shù) 004
RStudio 入門 006
RStudio 的R Markdown 導(dǎo)覽 012
R Markdown 文件與R 腳本 017
小練習(xí) 019
第2 章 ? 數(shù)據(jù)分析導(dǎo)論 027
概述 027
數(shù)據(jù)分析的動(dòng)機(jī) 028
大數(shù)據(jù)越來越大 028
數(shù)據(jù)分析是一項(xiàng)有市場需求的技能 029
數(shù)據(jù)分析是一種公益 030
數(shù)據(jù)分析的構(gòu)成要素 031
描述數(shù)據(jù)并形成假設(shè) 033
假設(shè)一:民族語言碎片化 034
假設(shè)二:女性選舉權(quán) 040
假設(shè)三:人力資本 046
假設(shè)四:政治穩(wěn)定 048
模型的構(gòu)建與估計(jì) 052
診斷 054
結(jié)果的穩(wěn)定性 054
殘差圖 056
提出下一個(gè)問題 059
目錄
X R統(tǒng)計(jì)與數(shù)據(jù)可視化:社會(huì)科學(xué)數(shù)據(jù)分析實(shí)踐
第3 章 ? 描述數(shù)據(jù) 065
概述 065
數(shù)據(jù)集和變量 067
不同類型的變量 069
連續(xù)變量 070
分類變量 070
有序分類變量 071
描述數(shù)據(jù)可以節(jié)省時(shí)間和精力 074
數(shù)據(jù)的形狀 074
數(shù)據(jù)的極差 078
辨識(shí)困惑、問題、假設(shè)和線索 080
困惑和問題:重要的區(qū)別 080
描述數(shù)據(jù)以改進(jìn)問題 082
描述數(shù)據(jù)披露了更多線索 085
度量 087
有效性 087
可靠性 089
第4 章 ? 集中趨勢和離散程度 095
概述 095
集中趨勢的度量:眾數(shù)、平均數(shù)和中位數(shù) 096
眾數(shù) 097
平均數(shù) 098
中位數(shù) 102
平均數(shù)與中位數(shù) 105
離散程度的度量:極差、四分位距和標(biāo)準(zhǔn)差 108
極差 109
四分位距 111
標(biāo)準(zhǔn)差 112
四__________分位距與標(biāo)準(zhǔn)差 118
關(guān)于方差的說明 119
第5 章 ? 數(shù)據(jù)的單變量和雙變量描述 125
概述 125
好的、差的和離群值 126
目錄 _目錄 XI
單變量數(shù)據(jù)的5 種視圖 127
頻率表 128
條形圖 129
箱線圖(或盒須圖) 130
直方圖 133
莖葉圖 137
變量間是否相關(guān) 140
散點(diǎn)圖 141
箱線圖(雙變量) 147
馬賽克圖 147
交叉表 150
氣泡圖 150
第6 章 ? 數(shù)據(jù)變換 159
概述 159
數(shù)據(jù)變換的理論原因 160
變換數(shù)據(jù)確保符合理論 160
數(shù)據(jù)和問題都要變換以相互匹配 161
數(shù)據(jù)變換的實(shí)際原因 162
數(shù)據(jù)變換——從連續(xù)變量到分類變量 166
數(shù)據(jù)變換——改變類別 171
Box-Cox 變換 177
第7 章 ? 數(shù)據(jù)展示的一些原則 189
概述 189
一些風(fēng)格要素 190
消除雜亂 191
聚焦 193
整合圖文 195
一圖應(yīng)該勝千言 198
了解你的受眾 204
了解你的目的:解釋性、探索性或信息性 206
故事的基本要素 211
文檔(樹立講述者的可信度) 212
建立直覺(設(shè)定背景) 214
XII R統(tǒng)計(jì)與數(shù)據(jù)可視化:社會(huì)科學(xué)數(shù)據(jù)分析實(shí)踐
展示因果關(guān)系(旅程) 214
從因果到行動(dòng)(決議) 216
第8 章 ? 概率論精要 221
概述 221
總體和樣本 222
樣本偏差與隨機(jī)樣本 223
大數(shù)定律 225
大數(shù)定律的可視化 226
中心極限定理 230
平均數(shù)的抽樣分布隨著n 的增加而接近正態(tài)分布 231
和的抽樣分布是正態(tài)的 233
從正態(tài)分布中抽取時(shí)的觀測數(shù)量 234
中心極限定理的一個(gè)有用性質(zhì) 235
從不同的分布中抽樣 236
標(biāo)準(zhǔn)正態(tài)分布 242
標(biāo)準(zhǔn)正態(tài)分布與臨界z 分?jǐn)?shù) 245
第9 章 ? 置信區(qū)間與假設(shè)檢驗(yàn) 253
概述 253
大樣本的置信區(qū)間 254
求總體比例 254
求總體平均數(shù) 259
小樣本與t- 分布 263
自由度 266
小樣本的樣本標(biāo)準(zhǔn)差 267
用小樣本構(gòu)建置信區(qū)間 272
例子:女性薪酬與男性薪酬 273
比較兩個(gè)樣本的平均數(shù) 275
例子:兩個(gè)群體和兩種收入 276
例子:種族和對警察的看法 278
例子:收入和對特朗普的支持 278
置信水平 280
關(guān)于統(tǒng)計(jì)推斷和因果關(guān)系的簡要說明 283
目錄 _目錄 XIII
第10 章 ? 進(jìn)行比較 289
概述 289
為什么要進(jìn)行比較 290
需要比較的問題 291
比較兩個(gè)分類變量 293
例子:對警察的看法 293
例子:哪些人去教堂 296
比較連續(xù)變量和分類變量 298
例子:奧巴馬情感量表 298
比較兩個(gè)連續(xù)變量 301
例子:性別與教育 301
例子:性別與政策制定 302
探索性數(shù)據(jù)分析:調(diào)查美國的墮胎率 305
重述要點(diǎn) 307
好的分析引出新的問題 312
第11 章 ? 受控比較 317
概述 317
什么是受控比較 318
比較兩個(gè)分類變量,同時(shí)控制第三個(gè)變量 319
例子:對警察的看法 319
例子:對移民的看法 325
比較兩個(gè)連續(xù)變量,同時(shí)控制第三個(gè)變量 332
例子:嬰兒死亡率 333
例子:兇殺率 336
論點(diǎn)與受控比較 339
第12 章 ? 線性回歸 345
概述 345
線性回歸的優(yōu)點(diǎn) 346
線性回歸中的斜率和截距 347
對斜率和截距的解讀 348
例子:選民投票率和教育 348
擬合優(yōu)度(R2 統(tǒng)計(jì)量) 353
XIV R統(tǒng)計(jì)與數(shù)據(jù)可視化:社會(huì)科學(xué)數(shù)據(jù)分析實(shí)踐
統(tǒng)計(jì)顯著性 357
計(jì)算t- 比率 358
二元回歸的例子 360
一個(gè)州的宗教信仰水平是否會(huì)影響墮胎率 361
宗教信仰是否會(huì)影響槍支法案 363
暴力會(huì)導(dǎo)致政治不穩(wěn)定嗎 364
收入(人均 GDP)與投票率有關(guān)嗎 366
第13 章 ? 多元回歸 373
概述 373
什么是多元回歸 374
為什么要使用多元回歸 375
回歸模型和論點(diǎn) 376
回歸模型、理論和證據(jù) 377
解讀多元回歸中的估計(jì)值 381
實(shí)質(zhì)顯著性 381
統(tǒng)計(jì)顯著性 382
擬合優(yōu)度:R2 383
例子:兇殺率與教育 384
理論 384
描述數(shù)據(jù) 385
估計(jì) 389
經(jīng)驗(yàn)蘊(yùn)涵 391
討論 394
第14 章 ? 虛擬變量和交互作用 399
概述 399
什么是虛擬變量 400
加性模型與交互作用模型 401
二元虛擬變量回歸 402
多元回歸與虛擬變量 403
多元回歸中的交互作用 403
例子:伯尼.桑德斯,教育和收入 405
例子:外援,人均GDP 和民主 410
目錄 _目錄 XV
第15 章 ? 診斷1 :普通最小二乘法是否適用 419
概述 417
回歸分析中的診斷 417
統(tǒng)計(jì)量與估計(jì)量的性質(zhì) 420
高斯- 馬爾可夫假設(shè) 425
殘差圖 431
第16 章 ? 診斷2 :殘差、杠桿值與影響力的度量 445
概述 445
離群值 446
杠桿值 449
影響力的度量 455
庫克距離 455
dfbeta 456
增加變量圖 461
第17 章 ? 邏輯回歸 469
概述 469
需要邏輯回歸解決的議題與難題 470
邏輯回歸違反了高斯- 馬爾可夫假設(shè) 471
使用對數(shù)發(fā)生比 474
使用預(yù)測概率 477
二元邏輯回歸 477
多元邏輯回歸 479
例子:2012 年奧巴馬贏得的選舉人團(tuán) 480
邏輯回歸模型擬合 483
例子:奧巴馬,收入和教育 483
接收者操作特征曲線和曲線下面積 484
附錄A ? 形成經(jīng)驗(yàn)蘊(yùn)涵