人工智能相比于人力而言具有低成本、高效率和全天候等巨大優(yōu)勢,但其發(fā)展往往不能全面滿足實(shí)際場景的旺盛需求。近年來人工智能與計算機(jī)視覺的結(jié)合日益緊密,基于深度學(xué)習(xí)研究計算機(jī)視覺成為一個新方向。深度學(xué)習(xí)的特點(diǎn)是層次化的特征提取、規(guī)模更大、數(shù)據(jù)更多、計算更復(fù)雜。本書從介紹計算機(jī)視覺的任務(wù)入手,總結(jié)從傳統(tǒng)手工提取特征方法到深度學(xué)習(xí)的發(fā)展歷程。然后,針對不同層次的計算機(jī)視覺任務(wù),結(jié)合作者團(tuán)隊(duì)近年來的研究成果,以及部分學(xué)界公認(rèn)的里程碑式成果,從理論層面論述深度學(xué)習(xí)在具體計算機(jī)視覺任務(wù)中的應(yīng)用。本書作者來自北京郵電大學(xué)長期從事多媒體技術(shù)教學(xué)和研究的一線教師。本書適合從事圖像和視頻的處理和理解的研究人員、相關(guān)領(lǐng)域軟件開發(fā)人員或研究生閱讀。
姜竹青,博士,加拿大麥吉爾大學(xué)訪問學(xué)者,現(xiàn)任教于北京郵電大學(xué),碩士生導(dǎo)師。主持或主要參與多項(xiàng)機(jī)器學(xué)習(xí)相關(guān)的國家自然科學(xué)基金,在國際學(xué)術(shù)會議發(fā)表相關(guān)論文30余篇,并與國家廣播電影電視總局、中國航天科技集團(tuán)、中國石油天然氣股份有限公司、中國移動通信集團(tuán)等部委和企業(yè)保持合作關(guān)系。
目 錄
第1章 計算機(jī)視覺及其任務(wù) 1
1.1 計算機(jī)視覺的定義 1
1.2 計算機(jī)視覺的發(fā)展沿革 1
1.3 計算機(jī)視覺的主要任務(wù)及其應(yīng)用 2
1.3.1 圖像恢復(fù) 2
1.3.2 圖像識別 3
1.3.3 動作分析 4
1.3.4 場景重建 5
1.3.5 行人再識別 6
1.4 本章小結(jié) 7
本章參考文獻(xiàn) 7
第2章 手工特征 8
2.1 初級圖像特征 8
2.1.1 顏色特征 8
2.1.2 紋理特征 11
2.1.3 形狀特征 12
2.2 中級圖像特征 13
2.2.1 Haar-like特征 14
2.2.2 SIFT特征 16
2.2.3 SURF特征 19
2.3 本章小結(jié) 21
本章參考文獻(xiàn) 21
第3章 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)理論 23
3.1 神經(jīng)元概述 23
3.1.1 感知器 23
3.1.2 激活函數(shù) 24
3.1.3 神經(jīng)元模型 28
3.2 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu) 28
3.2.1 兩層神經(jīng)網(wǎng)絡(luò)模型 28
3.2.2 前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò) 29
3.2.3 神經(jīng)網(wǎng)絡(luò)中的參數(shù) 30
3.3 神經(jīng)網(wǎng)絡(luò)訓(xùn)練 31
3.3.1 權(quán)重初始化 31
3.3.2 偏置初始化 32
3.3.3 前向傳播 32
3.3.4 損失函數(shù) 32
3.3.5 反向傳播 33
3.3.6 參數(shù)更新 35
3.3.7 批歸一化 37
3.3.8 正則化 38
3.4 常見的神經(jīng)元模型 40
3.4.1 空間信息處理單元 40
3.4.2 時間信息處理單元 41
3.5 本章小結(jié) 43
本章參考文獻(xiàn) 44
第4章 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 46
4.1 LENET5 46
4.2 ALEXNET 48
4.3 VGGNET 50
4.4 INCEPTION 53
4.5 RESNET 55
4.6 DENSENET 57
4.7 MOBILENET 60
4.8 FCN 63
4.9 本章小結(jié) 71
本章參考文獻(xiàn) 71
第5章 目標(biāo)分割 73
5.1 目標(biāo)分割技術(shù)概述 73
5.1.1 目標(biāo)分割技術(shù)基本理論與模型 73
5.1.2 目標(biāo)分割技術(shù)概述 74
5.1.3 評價標(biāo)準(zhǔn) 77
5.2 基于深度學(xué)習(xí)多路徑特征融合的圖像語義分割 79
5.2.1 特點(diǎn) 79
5.2.2 基于VGGNet的多路徑特征融合算法 80
5.2.3 基于ResNet的多路徑特征融合算法 85
5.3 基于模糊邏輯的多特征視頻運(yùn)動目標(biāo)分割 88
5.3.1 特點(diǎn) 88
5.3.2 算法 88
5.3.3 實(shí)驗(yàn) 96
5.4 目標(biāo)分割未來趨勢 98
本章參考文獻(xiàn) 99
第6章 目標(biāo)檢測 102
6.1 目標(biāo)檢測算法概述 102
6.1.1 算法概述 102
6.1.2 評價指標(biāo) 104
6.2 傳統(tǒng)目標(biāo)檢測方法 106
6.2.1 區(qū)域選擇算法 106
6.2.2 典型人工圖像特征 106
6.2.3 分類器類型及訓(xùn)練 106
6.3 基于候選區(qū)域的目標(biāo)檢測方法 110
6.3.1 R-CNN的實(shí)現(xiàn) 110
6.3.2 SPP-net的實(shí)現(xiàn) 111
6.3.3 Fast R-CNN的實(shí)現(xiàn) 112
6.3.4 Faster R-CNN的實(shí)現(xiàn) 113
6.4 基于回歸的目標(biāo)檢測 115
6.4.1 YOLO的實(shí)現(xiàn) 115
6.4.2 SSD的實(shí)現(xiàn) 117
6.4.3 YOLOv2的改進(jìn) 119
6.5 改進(jìn)算法拾萃 122
6.5.1 困難樣本挖掘 122
6.5.2 YOLOv2損失函數(shù) 123
6.5.3 基于上下文信息的SSD改進(jìn) 124
6.5.4 多特征多尺度融合 126
6.6 目標(biāo)檢測未來趨勢 129
本章參考文獻(xiàn) 130
第7章 目標(biāo)跟蹤 132
7.1 目標(biāo)跟蹤技術(shù)概述 132
7.1.1 目標(biāo)跟蹤算法基本理論與模型 132
7.1.2 目標(biāo)跟蹤算法概述 133
7.1.3 評價標(biāo)準(zhǔn) 135
7.2 平衡正負(fù)樣本權(quán)重的多示例學(xué)習(xí)跟蹤算法 136
7.2.1 MIL跟蹤算法 136
7.2.2 平衡正負(fù)樣本權(quán)重 138
7.3 基于核化相關(guān)濾波器的視覺目標(biāo)跟蹤算法研究與改進(jìn) 143
7.3.1 基于相關(guān)濾波器的目標(biāo)跟蹤算法 143
7.3.2 自適應(yīng)模板更新的目標(biāo)跟蹤算法 150
7.3.3 CNN和相關(guān)濾波結(jié)合的跟蹤算法 158
7.4 基于中心對比CNN的目標(biāo)跟蹤算法研究 169
7.4.1 逐任務(wù)驅(qū)動的CNN目標(biāo)跟蹤算法 169
7.4.2 中心對比CNN目標(biāo)跟蹤算法 170
7.4.3 小運(yùn)動優(yōu)先的視覺目標(biāo)跟蹤算法 175
7.5 目標(biāo)跟蹤未來趨勢 180
本章參考文獻(xiàn) 180
第8章 行人再識別 183
8.1 行人再識別技術(shù)概述 183
8.1.1 行人再識別技術(shù)基本理論與模型 183
8.1.2 行人再識別技術(shù)簡介 184
8.1.3 評價標(biāo)準(zhǔn) 186
8.2 基于ADARANK進(jìn)行特征集成的行人再識別算法 188
8.2.1 算法特點(diǎn) 188
8.2.2 算法細(xì)節(jié) 188
8.2.3 實(shí)驗(yàn)結(jié)果 200
8.3 基于增強(qiáng)深度特征的行人再識別算法 206
8.3.1 算法特點(diǎn) 206
8.3.2 引入注意力機(jī)制的網(wǎng)絡(luò)模型 207
8.3.3 引入手工特征:LOMO特征融合到多級注意力識別—驗(yàn)證網(wǎng)絡(luò) 215
8.4 基于屬性和身份特征融合的行人再識別算法 221
8.4.1 特點(diǎn) 221
8.4.2 算法 222
8.4.3 實(shí)驗(yàn) 230
8.5 行人再識別未來趨勢 236
本章參考文獻(xiàn) 237
第9章 圖像壓縮 242
9.1 有損壓縮和無損壓縮 242
9.1.1 無損壓縮 242
9.1.2 有損壓縮 243
9.2 經(jīng)典的有損圖像壓縮方法 243
9.2.1 JPEG 243
9.2.2 JPEG 2000 243
9.2.3 BPG 244
9.3 基于深度學(xué)習(xí)的圖像壓縮技術(shù) 244
9.4 基于空間能量壓縮的圖像壓縮 244
9.4.1 算法特點(diǎn) 244
9.4.2 算法細(xì)節(jié) 245
9.4.3 實(shí)驗(yàn)結(jié)果 249
9.5 利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行內(nèi)容加權(quán)的圖像壓縮 249
9.5.1 算法特點(diǎn) 249
9.5.2 算法細(xì)節(jié) 250
9.5.3 實(shí)驗(yàn)結(jié)果 254
9.6 基于生成式對抗網(wǎng)絡(luò)的圖像壓縮 255
9.6.1 算法特點(diǎn) 255
9.6.2 算法細(xì)節(jié) 255
9.6.3 實(shí)驗(yàn)結(jié)果 257
9.7 圖像壓縮未來趨勢 257
本章參考文獻(xiàn) 258
第10章 超分辨率重建 259
10.1 超分辨率技術(shù)概述 259
10.1.1 超分辨率技術(shù)的基本理論與模型 259
10.1.2 超分辨率技術(shù)概述 261
10.2 基于深度殘差網(wǎng)絡(luò)注意力機(jī)制的圖像超分辨率重建 263
10.2.1 存在的問題 263
10.2.2 提出的解決方案 264
10.2.3 具體實(shí)現(xiàn)細(xì)節(jié) 264
10.2.4 實(shí)驗(yàn)結(jié)果比較分析 267
10.3 基于增強(qiáng)的可變形卷積網(wǎng)絡(luò)的視頻超分辨率 271
10.3.1 視頻超分辨率 271
10.3.2 存在的問題 272
10.3.3 針對存在的問題提出的解決方案 272
10.3.4 具體實(shí)現(xiàn) 274
10.3.5 實(shí)驗(yàn)對比 277
10.4 真實(shí)原始傳感器數(shù)據(jù)的超分辨率重建 278
10.4.1 存在的問題 278
10.4.2 針對問題提出的解決方案 279
10.4.3 具體實(shí)現(xiàn)細(xì)節(jié) 279
10.4.4 實(shí)驗(yàn)對比 281
10.5 超分辨率重建未來趨勢 283
本章參考文獻(xiàn) 284
第11章 圖像去噪技術(shù) 287
11.1 圖像去噪技術(shù)概述 287
11.1.1 圖像去噪基本理論與模型 287
11.1.2 圖像去噪算法 287
11.1.3 評價標(biāo)準(zhǔn) 292
11.2 去噪卷積神經(jīng)網(wǎng)絡(luò) 293
11.2.1 算法特點(diǎn) 293
11.2.2 存在問題 294
11.2.3 算法細(xì)節(jié) 294
11.2.4 實(shí)驗(yàn)結(jié)果 295
11.3 盲去噪卷積神經(jīng)網(wǎng)絡(luò) 299
11.3.1 算法特點(diǎn) 299
11.3.2 存在問題 299
11.3.3 算法細(xì)節(jié) 299
11.3.4 實(shí)驗(yàn) 302
11.4 真實(shí)圖像去噪神經(jīng)網(wǎng)絡(luò) 307
11.4.1 特點(diǎn) 307
11.4.2 存在問題 307
11.4.3 算法細(xì)節(jié) 307
11.4.4 實(shí)驗(yàn) 310
11.4.5 總結(jié) 312
11.5 圖像去噪未來趨勢 312
本章參考文獻(xiàn) 312
附錄A 術(shù)語與縮略詞表 313