本書是機器視覺領(lǐng)域的科普書籍,主要介紹機器視覺的相關(guān)概念、技術(shù)及應用。全書分為六章,章介紹機器視覺的前世今生,回顧機器視覺的發(fā)展歷程;第二章介紹了機器視覺的感知與系統(tǒng),第三章視覺內(nèi)容表示與理解和第四章立體視覺感知與理解,由淺入深地闡述人工智能的眼睛機器視覺是如何讓機器認識世界、看懂世界;第五章從技術(shù)創(chuàng)新、產(chǎn)業(yè)構(gòu)建、融合應用等維度,介紹機器視覺助力行業(yè)升級;第六章介紹機器視覺的挑戰(zhàn)與愿景。本書可作為青少年讀者的機器視覺知識啟蒙讀本,又可作為相關(guān)從業(yè)人員的參考用書。
機器視覺是人工智能的眼睛,是人類視覺能力的模擬、延伸和擴展,主要解決智能體看得見、看得準和看得懂等問題。從自動駕駛到智慧交通,從衛(wèi)星遙感到智慧工業(yè),從智能制造到智慧醫(yī)療,機器視覺是諸多領(lǐng)域?qū)崿F(xiàn)突破性創(chuàng)新的核心關(guān)鍵技術(shù), 是目前人工智能研究為活躍、應用為廣泛的領(lǐng)域之一。本書從科普的角度,將機器視覺的前世今生、方法原理、應用場景、發(fā)展前景等用通俗的語言娓娓道來,揭開機器視覺的神秘面紗,幫助讀者一探機器視覺的究竟,洞悉產(chǎn)業(yè)風口,抓住時代紅利。
陳俊龍 博士、教授、博士生導師。現(xiàn)任華南理工大學計算機科學與工程學院院長,中國自動化學會副理事長,健康智能感知與數(shù)字平行人工程研究中心主任,廣東省計算智能與網(wǎng)絡(luò)空間信息重點實驗室主任,電氣電子工程師協(xié)會會士(IEEE Fellow)、美國科學促進會會士(AAAS Fellow)、國際模式識別學會會士(IAPR Fellow)、中國自動化學會會士(CAA Fellow)、香港工程師學會會士(HKIE Fellow),歐洲科學院(Academia Europaea)院士,歐洲科學與藝術(shù)院(European Academy of Sciences and Arts)院士。曾任IEEE兩個學術(shù)期刊的主編。連續(xù)5年(20182022)入選科睿唯安(Clarivate Analytic)計算機學科及工程雙學科全球高被引科學家。2018年榮獲IEEE系統(tǒng)科學控制論的學術(shù)獎IEEE諾伯特·維納獎(Norbert Wiener Award)。榮獲2021年度IEEE Joseph G. Wohl終身成就獎及第十一屆吳文俊人工智能杰出貢獻獎。
譚明奎 華南理工大學教授、博士生導師,現(xiàn)任華南理工大學大數(shù)據(jù)與智能機器人重點實驗室副主任。2017年入選中組部高層次人才計劃青年項目,2018年入選廣東省珠江人才團隊,2022年入選美國斯坦福大學全球前2%科學家榜單。主持國家自然科學基金、廣東省新一代人工智能重大專項等多個國家和省部級項目。近5年以作者或者通信作者發(fā)表學術(shù)論文60余篇,包括IEEE TPAMI等IEEE匯刊論文21篇,以及NeurIPS、ICML、ICLR、CVPR等CCF-A人工智能會議論文30余篇。擔任NeurIPS、ICML、AAAI、CVPR等多個人工智能會議的領(lǐng)域主席。獲得2019年世界華人數(shù)學家聯(lián)盟論文獎(ICCM Best Paper)等多項獎勵。
章 智慧眼:機器視覺的前世今生001
一、人類視覺機理002
(一)人類視覺系統(tǒng)002
(二)人眼結(jié)構(gòu)003
(三)視皮層結(jié)構(gòu)004
(四)視覺產(chǎn)生過程005
(五)人類視覺特性006
二、機器視覺與人類視覺007
(一)相機與人眼的聯(lián)系及區(qū)別007
(二)機器視覺與人類視覺機理對比009
三、人工智能與機器視覺013
(一)基于圖像的任務013
(二)基于視頻的任務015
(三)基于3D數(shù)據(jù)的任務017
四、發(fā)展歷程019
第二章 看得見:機器視覺感知與系統(tǒng)027
一、視覺傳感機理與系統(tǒng)028
(一)可見光成像028
(二)其他成像方式031
二、視覺內(nèi)容存儲034
(一)視覺內(nèi)容存儲的數(shù)據(jù)類型034
(二)視覺內(nèi)容壓縮存儲037
三、基本的圖像處理任務040
(一)圖像去噪041
(二)圖像增強042
(三)高動態(tài)成像044
四、前沿視覺系統(tǒng)045
(一)數(shù)字視網(wǎng)膜045
(二)熒光成像系統(tǒng)047
(三)黑洞成像原理048
第三章 看得懂:視覺內(nèi)容的表示與理解051
一、視覺理解的內(nèi)涵與難點052
二、視覺特征表示056
(一)視覺特征表示056
(二)傳統(tǒng)方法的視覺特征表示057
(三)基于深度學習的視覺特征表示058
三、視頻內(nèi)容分析與理解061
(一)動作識別062
(二)動作定位063
四、視覺內(nèi)容生成技術(shù)064
第四章 看得全:立體視覺感知與理解071
一、三維感知技術(shù)072
(一)被動式測量072
(二)主動式測量074
(三)主被動結(jié)合的方法076
二、點云傳感與分析技術(shù)077
(一)3D形狀分類077
(二)3D目標檢測078
(三)3D點云分割080
三、面向自動駕駛的工業(yè)應用082
(一)自動駕駛簡介082
(二)自動駕駛中的3D感知方法084
四、面向工業(yè)生產(chǎn)的應用方案086
(一)航天器制造中的三維數(shù)據(jù)086
(二)汽車制造中的三維數(shù)據(jù)087
(三)高端裝備制造中的三維數(shù)據(jù)088
(四)三維數(shù)據(jù)在工業(yè)應用中的問題與展望089
五、三維人體行為識別090
(一)人體行為識別技術(shù)的應用091
(二)三維人體行為識別方法092
(三)三維人體行為識別數(shù)據(jù)庫094
第五章 用得好:機器視覺助力行業(yè)升級097
一、檢測與識別098
(一)通用目標檢測與識別098
(二)人臉檢測與識別104
(三)文字檢測與識別108
(四)二維碼檢測與識別113
二、圖像內(nèi)容理解與分析118
(一)姿態(tài)分析與應用118
(二)醫(yī)療圖像分析與理解124
(三)遙感圖像分析與理解127
三、視頻內(nèi)容理解與分析129
(一)自然視頻分析129
(二)醫(yī)療視頻分析131
第六章 看未來:機器視覺產(chǎn)業(yè)現(xiàn)狀與趨勢132
一、國外機器視覺產(chǎn)業(yè)發(fā)展基本情況及趨勢 132
(一)機器視覺產(chǎn)業(yè)的現(xiàn)狀134
(二)機器視覺產(chǎn)業(yè)呈現(xiàn)多元化發(fā)展136
(三)機器視覺產(chǎn)業(yè)發(fā)展理念及市場重點138
二、國內(nèi)機器視覺發(fā)展的基本情況及趨勢139
(一)我國機器視覺的現(xiàn)狀139
(二)國內(nèi)機器視覺行業(yè)需求142
(三)國內(nèi)機器視覺發(fā)展前景145
參考文獻149