■ 介紹機(jī)器學(xué)習(xí)領(lǐng)域的模型、算法和數(shù)據(jù)訓(xùn)練。
■ 了解監(jiān)督和非監(jiān)督機(jī)器學(xué)習(xí)算法。
■ 針對模型使用的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)驗(yàn)證。
■ 深入了解商業(yè)和科學(xué)中使用的線性回歸模型。
■ 使用單層和多層神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)果。
■ 介紹基于樹的模型的工作原理,以及流行的決策樹。
■ 了解R語言中機(jī)器學(xué)習(xí)的生態(tài)環(huán)境。
■ 介紹R語言提供的強(qiáng)大的工具caret包。
前言
在這篇簡短的介紹中,我將討論幾個關(guān)鍵點(diǎn)。本書面向的讀者對象本書非常適合對R編程語言有一定了解的人。如果不了解R語言,那么也不用擔(dān)心,R是一種很容易學(xué)習(xí)的語言,并且代碼可讀性很強(qiáng),相信你可以掌握代碼示例中的要點(diǎn)。本書的范圍本書是入門級的圖書,所以我們不會深入研究每種算法涉及的數(shù)學(xué)知識。書中展示的內(nèi)容可以幫助你大致掌握一些基本概念,比如神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林之間的區(qū)別等。排版約定本書使用了下述排版約定。斜體(Italic)表示新術(shù)語、URL、示例電子郵件地址、文件名、擴(kuò)展名、路徑名和目錄。等寬字體(Constant Width)表示代碼,在段內(nèi)用以表示與代碼相關(guān)的元素,如變量或函數(shù)名、數(shù)據(jù)庫、數(shù)據(jù)類型、環(huán)境變量、聲明和關(guān)鍵字。等寬粗體字(Constant width bold)表示命令或其他用戶輸入的文本。斜體等寬字體(Constant Width Italic)表示該文本應(yīng)當(dāng)由用戶提供的值或由用戶根據(jù)上下文決定的值替換。OReilly SafariSafari(以前的Safari Books Online)是面向企業(yè)、政府、教育和個人的會員制培訓(xùn)與參考平臺。
Safari的會員可以訪問成千上萬的書籍、培訓(xùn)視頻、學(xué)習(xí)路徑、交互式教程和推薦的書單。這些內(nèi)容由250多家出版社提供,其中包括:OReilly Media、Harvard Business Review、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Adobe、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett和Course Technology等。
更多關(guān)于Safari的信息,請?jiān)L問我們的網(wǎng)站:http://oreilly.com/safari。
聯(lián)系我們請把你對本書的意見和疑問發(fā)給出版社:美國:OReilly Media,Inc.1005 Gravenstein Highway NorthSebastopol,CA 95472中國:北京市西城區(qū)西直門南大街2號成銘大廈C座807室(100035)奧萊利技術(shù)咨詢(北京)有限公司這本書有專屬網(wǎng)頁,你可以在那里找到本書的勘誤、示例和其他信息。這個網(wǎng)頁的地址是http://bit.ly/intro_ML_withR。
如果你對本書有一些評論或技術(shù)上的建議,請發(fā)送電子郵件到:bookquestions@oreilly.com。要了解OReilly圖書、培訓(xùn)課程、會議和新聞的更多信息,請?jiān)L問我們的網(wǎng)站:http://www.oreilly.comhttp://www.oreilly.com.cn請?jiān)贔acebook上聯(lián)系我們,地址是:http://facebook.com/oreilly。請?jiān)赥witter上關(guān)注我們,地址是:http://twitter.com/oreillymedia。
請觀看我們的Youtube視頻,地址是:http://www.youtube.com/oreillymedia。致謝寫書一直是我的夢想。小學(xué)三四年級的時候,我想寫的書是關(guān)于我收集的毛絨動物玩具的脫口秀。我從來沒想過有一天,我的技術(shù)能力足夠強(qiáng)到可以為大家講解復(fù)雜的機(jī)器學(xué)習(xí)。
一路走到今天,發(fā)生了很多事情,我想在這里感謝所有幫助過我寫這本書的人:Allison Randal、Amanda Harris、Cristiano Sabiu、Dorothy Duffy、Elayne Britain、Filipe Abdalla、Heather Scherer、Ian Furniss、Kristen Brown、Kristen Larson、Marie Beaugureau、Max Winderbaum、Myrna Fant、Richard Fant、Robert Lippens、Will Wright和Woody Ciskowski。
Scott V. Burger是一名高級數(shù)據(jù)科學(xué)家。他擁有天體物理學(xué)領(lǐng)域的編程經(jīng)驗(yàn),并將這些經(jīng)驗(yàn)用于各種不同的方面。Scott擁有關(guān)于如何用簡潔的方式向公眾解釋科學(xué)概念的豐富經(jīng)驗(yàn),并向普通R語言用戶揭示了機(jī)器學(xué)習(xí)的世界。
前言
1
第1章 什么是模型? 5
算法與模型有什么不同? 10
術(shù)語說明 12
模型的局限性 13
建模中的統(tǒng)計(jì)與計(jì)算 15
數(shù)據(jù)訓(xùn)練 16
交叉驗(yàn)證 17
為什么使用R語言? 18
優(yōu)點(diǎn) 19
缺點(diǎn) 22
小結(jié) 23
第2章 監(jiān)督學(xué)習(xí)與無監(jiān)督機(jī)器學(xué)習(xí) 25
監(jiān)督模型 26
回歸 26
訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù) 28
分類 30
混合方法 37
無監(jiān)督學(xué)習(xí) 47
無監(jiān)督聚類方法 48
小結(jié) 50
第3章 R語言中的采樣統(tǒng)計(jì)和模型訓(xùn)練 52
偏差 53
R語言中的采樣 58
訓(xùn)練與測試 61
交叉驗(yàn)證 74
小結(jié) 76
第4章 全面解析回歸 78
線性回歸 79
多項(xiàng)式回歸 88
擬合數(shù)據(jù)的優(yōu)點(diǎn)過度擬合的風(fēng)險 95
邏輯回歸 98
小結(jié) 112
第5章 全面解析神經(jīng)網(wǎng)絡(luò) 115
單層神經(jīng)網(wǎng)絡(luò) 115
用R語言建立一個簡單的神經(jīng)網(wǎng)絡(luò) 116
多層神經(jīng)網(wǎng)絡(luò) 125
回歸神經(jīng)網(wǎng)絡(luò) 131
神經(jīng)網(wǎng)絡(luò)分類 136
使用caret的神經(jīng)網(wǎng)絡(luò) 137
小結(jié) 139
第6章 基于樹的方法 141
簡單的樹模型 141
決定樹的分割方式 143
決策樹的優(yōu)點(diǎn)和缺點(diǎn) 147
條件推理樹 158
隨機(jī)森林 161
小結(jié) 164
第7章 其他高級方法 165
樸素貝葉斯分類 165
主成分分析 169
支持向量機(jī) 179
k最近鄰算法 185
小結(jié) 191
第8章 使用caret包實(shí)現(xiàn)機(jī)器學(xué)習(xí) 192
泰坦尼克號數(shù)據(jù)集 193
使用caret 196
小結(jié) 207
附錄A caret機(jī)器學(xué)習(xí)模型大全 209
|