手勢(shì)識(shí)別技術(shù)理論及應(yīng)用
定 價(jià):69 元
- 作者:苗啟廣
- 出版時(shí)間:2022/6/24
- ISBN:9787560663425
- 出 版 社:西安電子科技大學(xué)出版社
- 中圖法分類(lèi):TP391.4
- 頁(yè)碼:192
- 紙張:
- 版次:1
- 開(kāi)本:16開(kāi)
本書(shū)以手勢(shì)識(shí)別技術(shù)理論與應(yīng)用為主題,系統(tǒng)地介紹了該領(lǐng)域常用的數(shù)據(jù)集,以及基于手工特征、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種、多模態(tài)數(shù)據(jù)融合與注意力機(jī)制等實(shí)現(xiàn)的手勢(shì)識(shí)別算法。此外,本書(shū)還結(jié)合作者的開(kāi)發(fā)經(jīng)驗(yàn),介紹了手勢(shì)識(shí)別在真實(shí)場(chǎng)景中的應(yīng)用,旨在使讀者在了解相關(guān)技術(shù)的同時(shí)提升實(shí)際應(yīng)用能力。
本書(shū)既適合從事計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域研究的技術(shù)人員閱讀,也可以作為高等院校相關(guān)專(zhuān)業(yè)師生的參考教材。
從人類(lèi)誕生開(kāi)始, 手勢(shì)作為人類(lèi)的一種交流方式就已經(jīng)形成。手勢(shì)作為語(yǔ)言的補(bǔ)充,為人們的交流帶來(lái)了便利。近些年來(lái),隨著人工智能技術(shù)的不斷發(fā)展,學(xué)術(shù)界和工業(yè)界涌現(xiàn)出一大批手勢(shì)識(shí)別算法,有效推動(dòng)了該領(lǐng)域的發(fā)展。與此同時(shí),隨著人們對(duì)人機(jī)交互友好性和便利性要求的不斷提升,手勢(shì)作為人類(lèi)認(rèn)知和感受世界的最基礎(chǔ)、最自然的交互方式之一,自然也成為了未來(lái)人機(jī)交互方式的一個(gè)重要發(fā)展方向。因此,研究在真實(shí)場(chǎng)景中的手勢(shì)識(shí)別技術(shù)對(duì)提升人機(jī)交互技術(shù)的可用性有著重要的現(xiàn)實(shí)意義。
近二十年來(lái),國(guó)內(nèi)外學(xué)者在人體動(dòng)作/手勢(shì)識(shí)別領(lǐng)域取得了豐富的研究成果,特別是近年來(lái)深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展催生了大量實(shí)現(xiàn)方法簡(jiǎn)單、性能優(yōu)良的算法。然而,目前系統(tǒng)介紹手勢(shì)識(shí)別技術(shù)理論和應(yīng)用的書(shū)籍非常少,這使得不少初學(xué)者難得其要,不便開(kāi)展研究,同樣也不利于推動(dòng)手勢(shì)識(shí)別這一領(lǐng)域整體研究的普及和發(fā)展。鑒于此,作者結(jié)合自己多年來(lái)在手勢(shì)識(shí)別技術(shù)及應(yīng)用領(lǐng)域的研究經(jīng)驗(yàn)和國(guó)內(nèi)外學(xué)者的最新研究成果,編著了本書(shū)。
本書(shū)主要從基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別方法入手,重點(diǎn)討論了現(xiàn)有的各類(lèi)手勢(shì)識(shí)別技術(shù)理論及相關(guān)的研究成果。全書(shū)首先以手勢(shì)識(shí)別技術(shù)的發(fā)展歷程為線索,系統(tǒng)介紹了基于傳統(tǒng)的手工特征、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種、多模態(tài)數(shù)據(jù)融合及注意力機(jī)制的手勢(shì)識(shí)別方法;隨后結(jié)合作者在研究手勢(shì)識(shí)別及其應(yīng)用過(guò)程中的經(jīng)驗(yàn),介紹了三個(gè)基于手勢(shì)識(shí)別的人機(jī)交互案例;最后介紹了未來(lái)手勢(shì)識(shí)別問(wèn)題的新的研究方向和應(yīng)用場(chǎng)景。
本書(shū)共9章。第1章介紹了手勢(shì)識(shí)別的基本概念及發(fā)展,包括手勢(shì)識(shí)別的概念、現(xiàn)有手勢(shì)識(shí)別方法的分類(lèi)與發(fā)展情況,以及當(dāng)前手勢(shì)識(shí)別領(lǐng)域存在的主要問(wèn)題;第2章著眼于手勢(shì)識(shí)別領(lǐng)域常用的數(shù)據(jù)集,從靜態(tài)和動(dòng)態(tài)手勢(shì)識(shí)別這兩類(lèi)問(wèn)題入手,分別介紹了相關(guān)數(shù)據(jù)集,并對(duì)這些數(shù)據(jù)集的提出時(shí)間、模態(tài)類(lèi)型、數(shù)據(jù)量等內(nèi)容進(jìn)行了比較和分析;第3章主要關(guān)注基于傳統(tǒng)的手工特征的手勢(shì)識(shí)別方法,以手勢(shì)識(shí)別過(guò)程中的不同步驟為依據(jù),分別介紹了手部區(qū)域分割、手勢(shì)特征提取和手勢(shì)識(shí)別的不同方法;第4章從深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展談起,分別介紹了二維和三維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以及基于這些網(wǎng)絡(luò)實(shí)現(xiàn)手勢(shì)識(shí)別的各種方法;第5章主要介紹了基于循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種的手勢(shì)識(shí)別方法,首先說(shuō)明了循環(huán)神經(jīng)網(wǎng)絡(luò)的概念與內(nèi)涵,包括循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展概述、循環(huán)神經(jīng)網(wǎng)絡(luò)的不同變種、結(jié)合外部存儲(chǔ)單元的記憶網(wǎng)絡(luò)等,隨后介紹了這些網(wǎng)絡(luò)模型是如何應(yīng)用于動(dòng)態(tài)手勢(shì)識(shí)別任務(wù)中的;第6章主要關(guān)注基于多模態(tài)數(shù)據(jù)融合的手勢(shì)識(shí)別方法,首先介紹了深度、紅外、骨骼、 光流、顯著性等不同模態(tài)數(shù)據(jù)的特點(diǎn)及生成方法,隨后介紹了在手勢(shì)識(shí)別任務(wù)中不同階段實(shí)現(xiàn)多模態(tài)數(shù)據(jù)融合的方法及性能差異;第7章的重點(diǎn)是注意力機(jī)制在手勢(shì)識(shí)別中的應(yīng)用,首先介紹了注意力機(jī)制的概念,隨后分析了作為手勢(shì)識(shí)別前處理的注意力機(jī)制和基于不同模態(tài)互補(bǔ)性的注意力機(jī)制兩種將注意力機(jī)制與手勢(shì)識(shí)別相結(jié)合的方法;第8章結(jié)合作者的開(kāi)發(fā)經(jīng)驗(yàn),以三個(gè)應(yīng)用案例為基礎(chǔ)介紹了將手勢(shì)識(shí)別用于人機(jī)交互的框架及技術(shù)細(xì)節(jié);第9章對(duì)手勢(shì)識(shí)別在未來(lái)人機(jī)交互中應(yīng)用的發(fā)展情況展開(kāi)探討,介紹了面向人機(jī)交互的手勢(shì)識(shí)別在當(dāng)前研究中遇到的問(wèn)題及未來(lái)可能的研究方向,以及手勢(shì)識(shí)別未來(lái)可以在哪些人機(jī)交互應(yīng)用中進(jìn)一步發(fā)揮作用。
本書(shū)內(nèi)容系統(tǒng)、全面、新穎,理論與典型應(yīng)用實(shí)例相結(jié)合,既可以作為大學(xué)本科生和研究生的補(bǔ)充教材,也可以作為企業(yè)應(yīng)用手勢(shì)識(shí)別時(shí)的理論指導(dǎo)用書(shū); 既可以作為初次接觸手勢(shì)識(shí)別技術(shù)者的入門(mén)讀物,也可以作為高級(jí)研究人員的參考書(shū)。本書(shū)的讀者對(duì)象為圖像處理、計(jì)算機(jī)應(yīng)用、模式識(shí)別等領(lǐng)域的專(zhuān)業(yè)人員和研究人員,以及高等院校相關(guān)專(zhuān)業(yè)的師生。閱讀本書(shū)需要讀者具備線性代數(shù)、微分和概率論等基礎(chǔ),并且對(duì)于人工智能和機(jī)器學(xué)習(xí)的基本知識(shí)有所了解。
全書(shū)由苗啟廣、李宇楠、劉向增和劉如意共同編寫(xiě),其中苗啟廣參與編寫(xiě)了第1、8、9章,李宇楠參與編寫(xiě)了第1、2、6、7、9章,劉向增參與編寫(xiě)了第3、4、5章,劉如意參與編寫(xiě)了第2、3、8章。本書(shū)的編寫(xiě)還得到了史媛媛、陳繪州、房慧娟、梁思宇、扶小龍和苗凱彬等人的大力幫助,在此一并表示感謝。由于作者水平有限,時(shí)間倉(cāng)促,書(shū)中難免會(huì)出現(xiàn)一些錯(cuò)漏之處,懇請(qǐng)讀者批評(píng)指正。
作 者
2021年10月
第1章 手勢(shì)識(shí)別的基本概念及發(fā)展 1
1.1 手勢(shì)識(shí)別的概念 1
1.1.1 手勢(shì)的形成與其在人類(lèi)社會(huì)中的作用 1
1.1.2 手勢(shì)與人機(jī)交互 3
1.2 手勢(shì)識(shí)別算法的發(fā)展情況 5
1.2.1 基于手工特征的方法 6
1.2.2 基于概率圖模型的方法 7
1.2.3 基于視覺(jué)詞袋的方法 8
1.2.4 基于神經(jīng)網(wǎng)絡(luò)的方法 8
1.3 當(dāng)前手勢(shì)識(shí)別領(lǐng)域面臨的挑戰(zhàn) 10
1.4 本章小結(jié) 11
參考文獻(xiàn) 11
第2章 手勢(shì)識(shí)別領(lǐng)域的常用數(shù)據(jù)集 19
2.1 靜態(tài)手勢(shì)數(shù)據(jù)集 20
2.2 動(dòng)態(tài)手勢(shì)數(shù)據(jù)集 23
2.3 數(shù)據(jù)集總結(jié) 32
2.4 本章小結(jié) 35
參考文獻(xiàn) 35
第3章 基于手工特征的手勢(shì)識(shí)別方法 39
3.1 手部區(qū)域分割 39
3.1.1 基于邊緣信息的分割方法 39
3.1.2 基于運(yùn)動(dòng)分析的分割技術(shù) 41
3.1.3 基于膚色特征的分割方法 44
3.1.4 小結(jié) 45
3.2 手勢(shì)特征提取 45
3.2.1 Haarlike特征 45
3.2.2 LBP特征 49
3.2.3 SIFT特征 50
3.2.4 SURF特征 56
3.2.5 HOG特征 59
3.2.6 HOF特征 62
3.2.7 小結(jié) 63
3.3 手勢(shì)識(shí)別 63
3.3.1 模板匹配 63
3.3.2 有限狀態(tài)機(jī) 64
3.3.3 動(dòng)態(tài)時(shí)間規(guī)整 68
3.4 本章小結(jié) 71
參考文獻(xiàn) 71
第4章 基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法 75
4.1 深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展概述 75
4.2 深度卷積神經(jīng)網(wǎng)絡(luò)的基本操作 76
4.2.1 卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 76
4.2.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu) 78
4.2.3 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程 81
4.3 二維卷積神經(jīng)網(wǎng)絡(luò)在手勢(shì)識(shí)別中的應(yīng)用 83
4.3.1 雙流網(wǎng)絡(luò) 83
4.3.2 Temporal Segment Networks 83
4.4 三維卷積神經(jīng)網(wǎng)絡(luò)的基本操作 84
4.4.1 三維卷積 85
4.4.2 三維池化 85
4.5 三維卷積神經(jīng)網(wǎng)絡(luò)在手勢(shì)識(shí)別中的應(yīng)用 86
4.5.1 C3D網(wǎng)絡(luò) 86
4.5.2 ResC3D網(wǎng)絡(luò) 88
4.5.3 TwoStream Inflated 3D ConvNet網(wǎng)絡(luò) 90
4.6 本章小結(jié) 92
參考文獻(xiàn) 93
第5章 基于循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種的手勢(shì)識(shí)別方法 96
5.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展概述 96
5.2 循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種 97
5.2.1 RNN的基本結(jié)構(gòu) 97
5.2.2 雙向RNN 98
5.2.3 LSTM 99
5.2.4 GRU 100
5.3 結(jié)合外部存儲(chǔ)單元的記憶網(wǎng)絡(luò) 102
5.3.1 記憶網(wǎng)絡(luò)框架 102
5.3.2 神經(jīng)圖靈機(jī) 103
5.4 循環(huán)神經(jīng)網(wǎng)絡(luò)在手勢(shì)識(shí)別中的應(yīng)用 106
5.4.1 RNN在手勢(shì)識(shí)別中的應(yīng)用 107
5.4.2 LSTM在手勢(shì)識(shí)別中的應(yīng)用 108
5.4.3 記憶網(wǎng)絡(luò)和LSTM相結(jié)合在手勢(shì)識(shí)別中的應(yīng)用 109
5.5 本章小結(jié) 111
參考文獻(xiàn) 111
第6章 基于多模態(tài)數(shù)據(jù)融合的手勢(shì)識(shí)別方法 113
6.1 多模態(tài)數(shù)據(jù)的生成 113
6.1.1 深度數(shù)據(jù) 113
6.1.2 紅外數(shù)據(jù) 115
6.1.3 骨骼數(shù)據(jù) 117
6.1.4 光流數(shù)據(jù) 121
6.1.5 顯著性數(shù)據(jù) 123
6.2 不同模態(tài)數(shù)據(jù)的融合算法 126
6.2.1 數(shù)據(jù)級(jí)融合 127
6.2.2 特征級(jí)融合 128
6.2.3 決策級(jí)融合 133
6.2.4 其他融合方法 136
6.3 本章小結(jié) 138
參考文獻(xiàn) 138
第7章 手勢(shì)識(shí)別與注意力機(jī)制 143
7.1 注意力機(jī)制的概念 143
7.1.1 注意力機(jī)制的研究進(jìn)展 143
7.1.2 人類(lèi)的視覺(jué)注意力 143
7.1.3 注意力機(jī)制在計(jì)算機(jī)視覺(jué)中的使用 144
7.2 作為手勢(shì)識(shí)別前處理的注意力機(jī)制 145
7.2.1 光照平衡 145
7.2.2 預(yù)先手部檢測(cè) 147
7.3 基于不同模態(tài)數(shù)據(jù)互補(bǔ)性的注意力機(jī)制 151
7.4 本章小結(jié) 155
參考文獻(xiàn) 156
第8章 基于手勢(shì)識(shí)別的人機(jī)交互案例 159
8.1 手勢(shì)識(shí)別案例一:無(wú)人機(jī)控制 159
8.2 手勢(shì)識(shí)別案例二:智能家居控制 165
8.3 手勢(shì)識(shí)別案例三:機(jī)器人控制 171
8.4 本章小結(jié) 175
參考文獻(xiàn) 175
第9章 手勢(shì)識(shí)別在未來(lái)人機(jī)交互中應(yīng)用的發(fā)展探討 177
9.1 面向人機(jī)交互的手勢(shì)識(shí)別新技術(shù) 177
9.1.1 當(dāng)前手勢(shì)識(shí)別技術(shù)面臨的問(wèn)題 177
9.1.2 未來(lái)的研究方向 178
9.2 手勢(shì)識(shí)別在人機(jī)交互中的新應(yīng)用 180
9.2.1 智能駕駛 180
9.2.2 智能家居 181
9.2.3 無(wú)人機(jī)控制 182
9.2.4 機(jī)器人控制 183
9.3 本章小結(jié) 184
參考文獻(xiàn) 184