模式識(shí)別和機(jī)器學(xué)習(xí)基礎(chǔ)
定 價(jià):119 元
叢書(shū)名:智能科學(xué)與技術(shù)叢書(shū)
- 作者:[美]烏利塞斯·布拉加-內(nèi)托(UlissesBraga-Neto)
- 出版時(shí)間:2023/10/1
- ISBN:9787111735267
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):TP391.4
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
模式識(shí)別和機(jī)器學(xué)習(xí)是人工智能應(yīng)用的基礎(chǔ)。本書(shū)將模式識(shí)別任務(wù)按照監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種方式進(jìn)行組織。第1章討論模式識(shí)別和機(jī)器學(xué)習(xí)的內(nèi)在關(guān)系,介紹了兩者的基礎(chǔ)知識(shí)和模式識(shí)別的設(shè)計(jì)過(guò)程。第2章和第3章介紹了zui優(yōu)化的和常規(guī)的基于實(shí)例的分類(lèi)問(wèn)題。第4~6章檢驗(yàn)了參數(shù)的、非參數(shù)的和函數(shù)逼近的分類(lèi)規(guī)則。之后在第7章和第8章就分類(lèi)的誤差估計(jì)和模型選擇對(duì)分類(lèi)模型的性能進(jìn)行討論。第9章介紹了能夠提高分類(lèi)模型的性能并減少存儲(chǔ)空間的降維技術(shù)。第10章和第11章分別介紹了聚類(lèi)分析技術(shù)和回歸模型。本書(shū)適合相關(guān)專(zhuān)業(yè)高年級(jí)本科生和研究生,以及該領(lǐng)域的從業(yè)人員閱讀。
本書(shū)沒(méi)有對(duì)模式識(shí)別和機(jī)器學(xué)習(xí)進(jìn)行百科全書(shū)式的介紹,而是精選了核心內(nèi)容,使讀者在學(xué)習(xí)本書(shū)后能夠精通核心知識(shí)點(diǎn)。本書(shū)廣泛使用Python腳本和真實(shí)的生物信息學(xué)和材料信息學(xué)數(shù)據(jù)集來(lái)說(shuō)明理論的要點(diǎn)。
前言
Fundamentals of Pattern Recognition and Machine Learning
“只有受過(guò)教育的人才是自由的!
——古希臘哲學(xué)家愛(ài)比克泰德(Epictetus)
模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展有著悠久而成就卓著的歷史。單就教材而言,已有很多該領(lǐng)域的優(yōu)秀教材,那么我們需要回答為什么仍需要一本全新的教材。本書(shū)致力于通過(guò)簡(jiǎn)明的介紹,將理論和實(shí)踐相結(jié)合并且讓其更適用于課堂教學(xué)。本書(shū)的重點(diǎn)是基于Python編程語(yǔ)言對(duì)近期的新方法和應(yīng)用實(shí)例予以展示。本書(shū)不會(huì)試圖對(duì)模式識(shí)別和機(jī)器學(xué)習(xí)進(jìn)行百科全書(shū)式的面面俱到的介紹,因?yàn)樵擃I(lǐng)域發(fā)展很快,這種介紹方式是不可能實(shí)現(xiàn)的。一本簡(jiǎn)明的教科書(shū)必須有嚴(yán)格的選材要求,本書(shū)所選的主題在一定程度上不可避免會(huì)取決于我自己的經(jīng)驗(yàn)和喜好,但我相信它能夠使讀者精通這一領(lǐng)域所必須掌握的核心知識(shí)。本書(shū)只要求讀者具備本科水平的微積分和概率論知識(shí),同時(shí)附錄中包含了研究生水平的概率論知識(shí)的簡(jiǎn)要回顧以及書(shū)中所需的其他數(shù)學(xué)方法。
本書(shū)是從我在得克薩斯農(nóng)工大學(xué)講授了十多年的模式識(shí)別、生物信息學(xué)和材料信息學(xué)研究生課程的講稿發(fā)展而來(lái)的。本書(shū)旨在通過(guò)恰當(dāng)?shù)倪x題(詳細(xì)見(jiàn)后),在模式識(shí)別或機(jī)器學(xué)習(xí)方面,滿足一個(gè)或兩個(gè)學(xué)期的具有高年級(jí)本科層次或研究生層次的初級(jí)課程的教學(xué)需求。雖然本書(shū)是為課堂教學(xué)設(shè)計(jì)的,但它也可有效地用于自學(xué)。
本書(shū)并沒(méi)有對(duì)理論知識(shí)進(jìn)行回避,因?yàn)閷?duì)理論知識(shí)的理解對(duì)于模式識(shí)別和機(jī)器學(xué)習(xí)的教學(xué)過(guò)程尤為重要。模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域充滿經(jīng)典的定理,如CoverHart定理、Stone定理及其推論、VapnikChervonenkis定理等。然而,本書(shū)試圖在理論和實(shí)踐之間獲取平衡。特別是,用貫穿全書(shū)的生物信息學(xué)和材料信息學(xué)的應(yīng)用數(shù)據(jù)集實(shí)例來(lái)解釋理論。這些數(shù)據(jù)集也被用在章末的Python作業(yè)中。書(shū)中所有的插圖都是使用Python腳本生成的,可以從本書(shū)的網(wǎng)站下載。鼓勵(lì)讀者用這些腳本做試驗(yàn)并在Python作業(yè)中使用它們。本書(shū)的網(wǎng)站還包含來(lái)自生物信息學(xué)和材料信息學(xué)應(yīng)用的數(shù)據(jù)集,繪圖和Python作業(yè)中會(huì)用到它們。根據(jù)我在課堂上的經(jīng)驗(yàn),一旦學(xué)生完成了Python作業(yè)并使用了來(lái)自真實(shí)應(yīng)用的數(shù)據(jù),他們對(duì)主題的理解就會(huì)顯著提升。
本書(shū)的組織結(jié)構(gòu)如下。第1章是對(duì)主題動(dòng)機(jī)的概括性介紹。第2~8章涉及分類(lèi)問(wèn)題。第2章和第3章是分類(lèi)的基礎(chǔ)章節(jié),主要涉及最優(yōu)化的和常規(guī)的基于實(shí)例的分類(lèi)問(wèn)題。第4~6章檢驗(yàn)了三類(lèi)主要的分類(lèi)規(guī)則:參數(shù)的、非參數(shù)的和函數(shù)逼近的。第7章和第8章涉及分類(lèi)的誤差估計(jì)和模型選擇。第9章不僅對(duì)分類(lèi)問(wèn)題的降維方法進(jìn)行研究,也包括關(guān)于無(wú)監(jiān)督方法的學(xué)習(xí)材料。最后,第10章和第11章討論了聚類(lèi)和回歸問(wèn)題。教師或讀者可以靈活地從這些章節(jié)中選擇主題,并以不同的順序使用它們。特別是,部分章節(jié)末尾的“其他主題”部分涵蓋了雜項(xiàng)主題內(nèi)容,在教學(xué)中可以包括也可以不包括這些主題,不會(huì)影響課程的連續(xù)性。此外,為了方便教師和讀者,書(shū)中用星號(hào)標(biāo)記了專(zhuān)業(yè)性更強(qiáng)的章節(jié),這些部分可以在初讀時(shí)跳過(guò)。
大多數(shù)章節(jié)末尾的練習(xí)部分都包含各種難度的問(wèn)題,練習(xí)中的一些是本章所討論概念的直接應(yīng)用,而另一些則介紹了新的概念和理論的擴(kuò)展,其中有些可能值得在課堂上討論。大多數(shù)章節(jié)末尾的Python作業(yè)要求讀者使用Python語(yǔ)言和scikitlearn工具包實(shí)現(xiàn)本章中討論的方法,并將它們應(yīng)用于生物信息學(xué)和材料信息學(xué)應(yīng)用中的合成和真實(shí)數(shù)據(jù)集。
根據(jù)我的教學(xué)經(jīng)驗(yàn),建議在課堂上按照如下方式使用本書(shū):
1一個(gè)學(xué)期的課程重點(diǎn)可集中在分類(lèi)問(wèn)題上,講授內(nèi)容包括第2~9章,包括大多數(shù)標(biāo)有星號(hào)的小節(jié)和其他主題部分。
2面向應(yīng)用的一學(xué)期課程,授課內(nèi)容可跳過(guò)第2~8章中的大部分或所有標(biāo)有星號(hào)的小節(jié)和其他主題部分,涵蓋第9~11章的內(nèi)容,同時(shí)重點(diǎn)講解各章的Python作業(yè)。
3涵蓋整本書(shū)的兩個(gè)學(xué)期課程的教學(xué)內(nèi)容包括大部分或所有標(biāo)有星號(hào)的小節(jié)以及其他主題部分。
本書(shū)的出版要?dú)w功于幾位前輩。首先,Duda和Hart的經(jīng)典教材(1973年首次出版,2001年的第2版加入了Stork作為共同作者)幾十年來(lái)一直是該領(lǐng)域的標(biāo)準(zhǔn)參考材料。此外,Devroye,Gyrfi and Lugosi[1996]本書(shū)以“作者[年份]”的形式來(lái)指代該作者于該年份發(fā)表或出版的論文或著作。 現(xiàn)在仍然是非參數(shù)模式識(shí)別的黃金標(biāo)準(zhǔn)。其他對(duì)本書(shū)存在影響的資料來(lái)源包括McLachlan[1992]、Bishop[2006]、Webb[2002]和James et al[2013]。
我要感謝所有現(xiàn)在和過(guò)去的合作者,他們幫助我塑造對(duì)模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的理解架構(gòu)。同樣,我也要感謝所有的學(xué)生,無(wú)論是由我指導(dǎo)過(guò)他們的研究,還是參加過(guò)我講座的學(xué)生,他們都對(duì)本書(shū)的內(nèi)容提出了自己的觀點(diǎn)和修改意見(jiàn)。我要感謝Ed Dougherty、Louise Strong、John Goutsias、Ascendino Dias e Silva、Roberto Lotufo、Junior Barrera和 Severino Toscano,我從他們身上受益匪淺。感謝Ed Dougherty、Don Geman、Al Hero和 Gábor Lugosi,在編寫(xiě)本書(shū)的時(shí)候他們提供了對(duì)本書(shū)的評(píng)論和對(duì)我的鼓勵(lì)。我很感謝Caio Davi,他為本書(shū)繪制了幾幅插圖。非常感謝當(dāng)我在紐約市處于困難時(shí)期時(shí)由Paul Drougas在施普林格提供的專(zhuān)家援助。最后,感謝我的妻子Flávia以及我的孩子Maria Clara和Ulisses,感謝他們?cè)诒緯?shū)的寫(xiě)作過(guò)程中對(duì)我充滿耐心,并提供了一如既往的支持。
Ulisses BragaNeto
得克薩斯學(xué)院站
2020年7月
[美]烏利塞斯·布拉加-內(nèi)托
目錄
Fundamentals of Pattern Recognition and Machine Learning
譯者序
前言
第1章概述111模式識(shí)別與機(jī)器學(xué)習(xí)1
12數(shù)學(xué)基礎(chǔ)設(shè)置1
13預(yù)測(cè)2
14預(yù)測(cè)誤差2
15監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)3
16復(fù)雜性權(quán)衡3
17設(shè)計(jì)周期4
18應(yīng)用實(shí)例5
181生物信息學(xué)5
182材料信息學(xué)7
19文獻(xiàn)注釋9
第2章最優(yōu)分類(lèi)1021無(wú)特征分類(lèi)10
22有特征分類(lèi)10
23貝葉斯分類(lèi)器13
24貝葉斯誤差16
25高斯模型19
251同方差情況20
252異方差情況22
26其他主題22
261極小極大分類(lèi)22
262F誤差24
263貝葉斯決策理論26
*264分類(lèi)問(wèn)題的嚴(yán)格表達(dá)27
27文獻(xiàn)注釋28
28練習(xí)29
29Python作業(yè)33
第3章基于實(shí)例的分類(lèi)3631分類(lèi)規(guī)則36
32分類(lèi)錯(cuò)誤率38
*33一致性38
34沒(méi)有免費(fèi)午餐定理41
35其他主題42
351集成分類(lèi)42
352混合抽樣與獨(dú)立抽樣43
36文獻(xiàn)注釋44
37練習(xí)44
38Python作業(yè)45
第4章參數(shù)分類(lèi)4741參數(shù)替換規(guī)則47
42高斯判別分析48
421線性判別分析48
422二次判別分析51
43邏輯斯諦分類(lèi)53
44其他主題54
441正則化判別分析54
*442參數(shù)規(guī)則的一致性55
443貝葉斯參數(shù)規(guī)則57
45文獻(xiàn)注釋59
46練習(xí)60
47Python作業(yè)62
第5章非參數(shù)分類(lèi)6451非參數(shù)替換規(guī)則64
52直方圖分類(lèi)65
53最近鄰分類(lèi)66
54核分類(lèi)68
55CoverHart定理70
*56Stone定理73
57文獻(xiàn)注釋74
58練習(xí)75
59Python作業(yè)76
第6章函數(shù)逼近分類(lèi)7861支持向量機(jī)78
611可分?jǐn)?shù)據(jù)的線性支持
向量機(jī)78
612一般線性支持向量機(jī)80
613非線性支持向量機(jī)82
62神經(jīng)網(wǎng)絡(luò)86
621反向傳播訓(xùn)練89
622卷積神經(jīng)網(wǎng)絡(luò)92
*623神經(jīng)網(wǎng)絡(luò)的普遍逼近
性質(zhì)94
624普遍一致性定理96
63決策樹(shù)97
64有序分類(lèi)器100
65文獻(xiàn)注釋101
66練習(xí)102
67Python作業(yè)104
第7章分類(lèi)誤差估計(jì)10871誤差估計(jì)規(guī)則108
72誤差估計(jì)性能109
721偏差分布109
722偏差、方差、均方根和
尾概率110
*723一致性111
73測(cè)試集誤差估計(jì)112
74再代入誤差估計(jì)113
75交叉驗(yàn)證114
76自助方法116
77增強(qiáng)誤差估計(jì)118
78其他主題121
781凸誤差估計(jì)器121
782平滑誤差估計(jì)器123
783貝葉斯誤差估計(jì)123
79文獻(xiàn)注釋126
710練習(xí)127
711Python作業(yè)129
第8章分類(lèi)模型選擇13181分類(lèi)復(fù)雜性131
82VapnikChervonenkis理論134
*821有限模型選擇134
822打散系數(shù)與VC維度135
823幾種分類(lèi)規(guī)則中的VC
參數(shù)136
824VapnikChervonenkis
定理139
825沒(méi)有免費(fèi)午餐定理139
83模型選擇方法140
831驗(yàn)證誤差最小化140
832訓(xùn)練集誤差最小化141
833結(jié)構(gòu)性風(fēng)險(xiǎn)最小化141
84文獻(xiàn)注釋142
85練習(xí)143
第9章降維14591面向分類(lèi)任務(wù)的特征提取145
92特征選擇146
921窮舉搜索146
922單變量貪婪搜索147
923多變量貪婪搜索149
924特征選擇與分類(lèi)復(fù)雜性150
925特征選擇與誤差估計(jì)150
93主成分分析152
94多維縮放155
95因子分析156
96文獻(xiàn)注釋158
97練習(xí)159
98Python作業(yè)160
第10章聚類(lèi)162101KMeans算法162
102高斯混合模型165
1021期望最大化方法166
1022與KMeans的關(guān)系170
103層次聚類(lèi)171
104自組織映射173
105文獻(xiàn)注釋174
106練習(xí)175
107Python作業(yè)176
第11章回歸178111最優(yōu)回歸178
112