1024你懂的国产欧美日韩在,牛牛av

本書主要介紹和探討計算機視覺的一系列核心主題，包括相機成像，圖像處理、分析和感知，三維重建等。首先介紹了相機模型、成像過程以及圖像的顏色模型、照射模型、渲染模型等；然后系統(tǒng)性地介紹了圖像濾波、特征提取、圖像和視頻感知與理解等多種任務(wù)，不僅詳細(xì)講解了各任務(wù)中的經(jīng)典方法，還全面地介紹了前沿的基于深度學(xué)習(xí)的方法；最后介紹了三維重建中涉及的幾何原理、重建步驟以及基于深度學(xué)習(xí)的新方法。
本書針對每一個核心問題單獨成章，并著重講解基本概念。通過大量的彩圖，幫助讀者理解問題。適合作為本科及研究生的計算機視覺和數(shù)字圖像處理課程的教材，并且可以作為深度學(xué)習(xí)課程的參考書。同時，也可供對計算機視覺感興趣的相關(guān)專業(yè)人士參考。

在這個科技日新月異的時代，計算機視覺已然成為一個極具挑戰(zhàn)性和充滿潛力的領(lǐng)域。隨著計算機性能的提升和算法的不斷創(chuàng)新，我們似乎進入了一個全新的視覺時代，一個充滿無限可能性的時代。作為計算機視覺的從業(yè)者，我們深感榮幸，能夠在過去10年里，與眾多杰出的學(xué)生和朋友們一同探索這一領(lǐng)域的奧秘，見證計算機視覺從感知到重建的奇妙過程。
本書題為《計算機視覺：從感知到重建》,旨在為您提供一份全面且深入的指南，幫助您踏上探索計算機視覺的壯麗征程。在這本書中，我們將深入探討計算機視覺的一系列核心主題，從相機成像，圖像的處理、分析和感知，一直到三維重建，講解各主題的基礎(chǔ)理論、方法原理和經(jīng)典技術(shù)。
我們在此簡要介紹本書中各章的主要內(nèi)容，以便不同背景的讀者更有效地獲取所需信息。例如，剛開始接觸計算機視覺的讀者可以通讀全書并側(cè)重理論部分，有一定相關(guān)知識背景的讀者可以針對性地閱讀某些章節(jié)以加深理解，或?qū)⒈緯鳛楣ぞ邥樵兡硞€領(lǐng)域的經(jīng)典方法和前沿方法。
第一章：相機成像模型介紹了計算機視覺領(lǐng)域視角下的相機模型、成像過程以及圖像的顏色模型、亮度模型、渲染模型等。這些內(nèi)容能夠幫助讀者理解數(shù)字圖像的本源，掌握數(shù)字圖像和物理世界之間的邏輯關(guān)系、幾何關(guān)系，為入門計算機視覺，理解各種計算機視覺算法奠定基礎(chǔ)。
第二章：圖像空間濾波空間濾波用于改善圖像質(zhì)量、去除噪聲和增強圖像特征，是一種關(guān)鍵的圖像處理的技術(shù)。本章將介紹多種不同的空間濾波方法，以及它們在圖像增強中的應(yīng)用。另外，濾波或換言之卷積操作，也將在本書其他章節(jié)中頻繁出現(xiàn)，希望讀者通過閱讀本章能夠理解并掌握這種經(jīng)典的數(shù)學(xué)方法。
第三章：圖像特征提取介紹了如何從圖像中提取有意義的信息即圖像特征，包括傳統(tǒng)手動方法和基于深度學(xué)習(xí)的方法。正如我們?nèi)祟愖R別人臉更多的是借助五官和輪廓特征，而非人臉上的每個毛孔等細(xì)節(jié)，實際上大多數(shù)的計算機視覺技術(shù)并不直接處理數(shù)字圖像，而是基于體量更加精簡、信息更為豐富的圖像特征進行后續(xù)的計算處理。
第四章：圖像分類介紹了計算機視覺的入門級圖像感知任務(wù)，即理解圖像中的主要物體并輸出其類別。包括多種傳統(tǒng)方法和基于深度學(xué)習(xí)的新方法。本章首次涉及圖像表達(dá)、神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)，因此也重點講解了相關(guān)的基礎(chǔ)知識。
第五章：圖像中目標(biāo)檢測介紹了定位和識別圖像中物體的任務(wù)，以及實現(xiàn)目標(biāo)檢測的技術(shù)，包括傳統(tǒng)的方法和最新的深度學(xué)習(xí)框架。
第六章：圖像分割介紹了這種將圖像中的每個像素標(biāo)記為其對應(yīng)物體類別的任務(wù)、語義分割的原理和應(yīng)用，以及如何使用手動特征或深度學(xué)習(xí)來實現(xiàn)圖像分割。
第七章：視頻分類和行為識別介紹了視頻序列的分析和理解任務(wù)。視頻是一系列連續(xù)的圖像，與單幀圖像相比，既有視頻分類等類似任務(wù)，也有視頻中的物體追蹤、動作識別和場景分析等新任務(wù)。從技術(shù)手段角度來看，既有應(yīng)用于單幀圖像的技術(shù)的擴展，也有針對視頻數(shù)據(jù)提出的新技術(shù)。
第八章：圖像三維重建介紹了如何從二維圖像還原出三維世界的模型，三維重建是計算機視覺領(lǐng)域的巔峰之一。本章詳細(xì)介紹了三維重建的幾何原理、從相機運動到點云重建的各個步驟，以及如何使用深度學(xué)習(xí)來改進三維重建的質(zhì)量。
總體而言，本書以圖像的成像、處理、理解和重建為脈絡(luò)，系統(tǒng)性地講解了計算機視覺領(lǐng)域各主要任務(wù)的理論、方法和技術(shù)。本書的獨特之處在于，既回顧了傳統(tǒng)的計算機視覺方法基于手動特征的經(jīng)典算法，又深入介紹了最前沿的深度學(xué)習(xí)技術(shù)。這對于現(xiàn)代計算機視覺的學(xué)習(xí)者尤為重要。一方面，以深度學(xué)習(xí)為代表的人工智能技術(shù)近年來極大地提高了許多視覺算法的表現(xiàn)，拓展了計算機視覺技術(shù)成功落地的范圍，學(xué)習(xí)計算機視覺必須掌握這些前沿技術(shù)。而另一方面，許多具體任務(wù)又無法使用新興的深度學(xué)習(xí)方法來解決，如精確測量、高速實時檢測，或者無法獲得大規(guī)模數(shù)據(jù)的問題，這在實際應(yīng)用中，尤其是農(nóng)業(yè)、工業(yè)問題中十分常見，所以學(xué)習(xí)者仍然有必要掌握基于手動特征的各種視覺方法和技術(shù)。本書即是這樣一本融合傳統(tǒng)與現(xiàn)代的教材，讓您既能夠理解計算機視覺的基本原理，又能夠掌握當(dāng)今最激動人心的技術(shù)。
從多年的求學(xué)、科研和教學(xué)經(jīng)歷中，我們切身了解到學(xué)生們對于計算機視覺知識體系的困惑，對于知識圖譜和難度曲線設(shè)計或多或少的抱怨，以及對更好教材的渴望。因此，我們以自己的教學(xué)經(jīng)驗和研究成果為基礎(chǔ)，盡最大努力編寫這本教材，希望能夠滿足各類讀者的需求，無論您是渴望在計算機視覺領(lǐng)域深耕細(xì)作的研究生，還是想要初窺門徑的本科生，或是需要了解計算機視覺領(lǐng)域技術(shù)的科學(xué)家、工程師朋友。
計算機視覺是一個非常活躍且高速迭代的領(lǐng)域，許多新的英文單詞、命名或縮寫在成書時仍然沒有恰當(dāng)且通用的中文翻譯，例如Transformer等，因此本書保留了一些英文單詞未做翻譯。除此以外，在一些涉及語料的數(shù)據(jù)集中，由于英文單詞作為數(shù)據(jù)的特殊性，在數(shù)據(jù)集的說明性示意圖中也未對英文進行翻譯。
最后，衷心感謝上�？萍即髮W(xué)各位領(lǐng)導(dǎo)和上�？萍即髮W(xué)信息學(xué)院院長虞晶怡教授對此事的關(guān)心和支持，感謝上�？茖W(xué)技術(shù)出版社高在青編輯對本書付出的辛苦努力。感謝李晶、肖宇廷、金磊、錢深瀚、錢一成、許家樂、王晨宇、王若宇、胡俊豪、趙子伯、鐘子明、余澤浩、徐衍玉、廉東澤、劉聞、羅偉鑫、董思勛、胡華章、智軼浩、黃彬彬、于勁鵬、趙逸群、王碩、樸智新及其他課題組成員為本書內(nèi)容組織、編寫和修訂工作所做的貢獻(xiàn)。感謝國家自然科學(xué)基金委員會(項目編號61932020)對本書出版提供的資助。感謝各位讀者與我們一同踏上這段令人興奮的旅程。計算機視覺是一項永無止境的探索，而您的參與，將使這段旅程更加充實和有趣。愿這本書帶給您知識的光芒，啟迪您的思維，引領(lǐng)您走向計算機視覺的精彩未來。
祝您閱讀愉快，探索無窮!
高盛華厲征鑫
2023年10月

第１章相機成像模型／１
１．１引言／１
１．２簡單的相機模型／２
１．２．１相機數(shù)學(xué)模型／２
１．２．２相機的內(nèi)參／４
１．２．３相機的外參／６
１．２．４相機成像公式／７
１．２．５相機成像畸變／７
１．３圖像的顏色／１０
１．３．１基于拜爾濾波器的顏色感知／１０
１．３．２ＲＧＢ顏色模型／１１
１．３．３ＨＳＶ顏色模型／１２
１．４圖像的亮度／１４
１．４．１空間中的光／１４
１．４．２物體表面的光線反射／１６
１．４．３薄透鏡成像的輻射度學(xué) ／１７
１．４．４數(shù)字成像過程／１９
１．５渲染／２０
１．５．１渲染方程／２０
１．５．２光線追蹤算法／２０
１．６本章小結(jié) ／２３
第２章圖像空間濾波／２４
２．１引言／２４
２．２卷積和互相關(guān) ／２５
２．２．１卷積／２５
２．２．２互相關(guān) ／２６
２．３圖像的平滑／２８
２．３．１鄰域均值濾波／２８
２．３．２加權(quán)均值濾波／２８
２．３．３高斯均值濾波／２９
２．３．４中值濾波／３０
２．３．５雙邊濾波／３０
２．４圖像的銳化／３２
２．４．１梯度銳化／３２
２．４．２拉普拉斯算子的二階微分銳化／３３
２．４．３非銳化掩膜與高頻提升濾波／３４
２．５本章小結(jié) ／３５
第３章圖像特征提取／３６
３．１引言／３６
３．２基于非學(xué)習(xí)方法的邊緣檢測／３７
３．２．１邊緣、導(dǎo)數(shù)和梯度／３９
３．２．２邊緣的卷積形式計算／４０
３．２．３噪聲對邊緣檢測的影響和處理方法／４１
３．２．４Ｃａｎｎｙ邊緣檢測算子／４３
３．３基于深度學(xué)習(xí)的邊緣檢測／４５
３．３．１ＨＥＤ／４５
３．３．２ＲＣＦ／４７
３．３．３ＣＡＳＥＮｅｔ／４９
３．４基于非學(xué)習(xí)方法的關(guān)鍵點檢測／５１
３．４．１角點檢測原理／５３
３．４．２Ｈａｒｒｉｓ角點檢測／５４
３．４．３Ｈａｒｒｉｓ角點檢測的優(yōu)勢與不足／５８
３．４．４高斯拉普拉斯算子／５９
３．４．５高斯差分算子／６４
３．５基于深度學(xué)習(xí)的語義關(guān)鍵點檢測／６５
３．５．１基于深度學(xué)習(xí)的人臉關(guān)鍵點檢測／６５
３．５．２人體關(guān)鍵點檢測／６９
３．５．３房間布局估計／７４
３．６基于非學(xué)習(xí)方法的直線檢測／７８
３．６．１最小二乘法／７８
３．６．２基于ＲＡＮＳＡＣ的直線擬合／８２
３．６．３霍夫變換／８４
３．７基于深度學(xué)習(xí)的線段檢測／８７
３．７．１基于圖表示的線段檢測／８７
３．７．２基于向量場表示的線段檢測／８８
３．７．３語義直線檢測及應(yīng)用／８９
３．８本章小結(jié) ／９１
參考文獻(xiàn) ／９１
第４章圖像分類／９４
４．１引言／９４
４．２圖像表達(dá) ／９７
４．３基于手動特征的圖像表達(dá) ／９８
４．３．１基于顏色直方圖的圖像表達(dá) ／９８
４．３．２基于經(jīng)典的視覺詞袋模型的圖像表達(dá) ／９９
４．３．３基于空間金字塔匹配模型的圖像表達(dá) ／１０４
４．３．４基于壓縮感知的圖像表達(dá) ／１０５
４．３．５基于高斯混合模型的圖像特征編碼／１０７
４．４基于支持向量機的圖像分類／１０８
４．４．１面向線性可分?jǐn)?shù)據(jù)的支持向量機分類／１０８
４．４．２面向非線性可分?jǐn)?shù)據(jù)的支持向量機分類／１１４
４．４．３基于支持向量機的多分類實現(xiàn) ／１１６
４．４．４基于視覺詞袋模型和支持向量機的圖像分類／１１６
４．５基于自編碼器的圖像表達(dá) ／１１７
４．５．１多層感知機／１１８
４．５．２自編碼器／１２０
４．５．３降噪自編碼器／１２１
４．６基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類／１２２
４．６．１卷積神經(jīng)網(wǎng)絡(luò)的組件／１２２
４．６．２神經(jīng)網(wǎng)絡(luò)的訓(xùn)練／１２８
４．６．３代表性圖像分類卷積神經(jīng)網(wǎng)絡(luò) ／１３１
４．７基于膠囊網(wǎng)絡(luò)的圖像分類／１４３
４．７．１ＣａｐｓＮｅｔ／１４４
４．７．２堆疊膠囊自編碼器／１４７
４．８基于Ｔｒａｎｓｆｏｒｍｅｒ的圖像分類／１４９
４．８．１自然語言處理中的Ｔｒａｎｓｆｏｒｍｅｒ／１４９
４．８．２基于Ｔｒａｎｓｆｏｒｍｅｒ的圖像分類／１５１
４．９本章小結(jié) ／１５９
參考文獻(xiàn) ／１５９
第５章圖像中目標(biāo)檢測／１６４
５．１引言／１６４
５．２基于手動特征的目標(biāo)檢測／１７１
５．２．１ＶｉｏｌａＪｏｎｅｓ人臉檢測算法／１７２
５．２．２基于ＤＰＭ的目標(biāo)檢測／１７６
５．３基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測／１８３
５．３．１兩階段目標(biāo)檢測算法／１８５
５．３．２單階段目標(biāo)檢測算法／１９０
５．３．３無錨框的目標(biāo)檢測算法／１９５
５．４基于Ｔｒａｎｓｆｏｒｍｅｒ的目標(biāo)檢測／１９９
５．４．１ＤＥＴＲ／１９９
５．４．２Ｐｉｘ２ｓｅｑ／２０１
５．５本章小結(jié) ／２０３
參考文獻(xiàn) ／２０４
第６章圖像分割／２０７
６．１引言／２０７
６．２基于手動特征的圖像分割算法／２０９
６．２．１基于圖論的圖像分割／２０９
６．２．２基于聚類的圖像分割／２１３
６．３語義分割／２１６
６．３．１ＦＣＮ／２１８
６．３．２ＵＮｅｔ／２１９
６．３．３ＤｅｅｐＬａｂ／２２０
６．３．４ＰＳＰＮｅｔ／２２３
６．４實例分割／２２３
６．４．１ＭａｓｋＲＣＮＮ／２２５
６．４．２ＹＯＬＡＣＴ／２２５
６．４．３ＳＯＬＯ／２２７
６．５全景分割／２２８
６．５．１ＰａｎｏｐｔｉｃＦＰＮ／２２９
６．５．２ＵＰＳＮｅｔ／２３０
６．６點云分割／２３２
６．６．１用于圖的卷積神經(jīng)網(wǎng)絡(luò) ／２３４
６．６．２基于點云的語義分割／２３８
６．７本章小結(jié) ／２４４
參考文獻(xiàn) ／２４４
第７章視頻分類和行為識別／２４８
７．１引言／２４８
７．２基于手動特征的視頻分類／２５３
７．２．１基于詞袋模型的視頻表達(dá)和分類／２５４
７．２．２基于光流特征的視頻表達(dá)和分類／２５４
７．３基于循環(huán)神經(jīng)網(wǎng)絡(luò)的視頻分類／２６３
７．３．１循環(huán)神經(jīng)網(wǎng)絡(luò) ／２６３
７．３．２雙向循環(huán)神經(jīng)網(wǎng)絡(luò) ／２６４
７．３．３長短期記憶網(wǎng)絡(luò) ／２６６
７．３．４門控制循環(huán)單元／２６７
７．３．５基于ＬＳＴＭ的視頻表達(dá) ／２６７
７．４基于卷積神經(jīng)網(wǎng)絡(luò)的視頻分類／２７０
７．４．１單分支網(wǎng)絡(luò) ／２７０
７．４．２多分支網(wǎng)絡(luò) ／２７８
７．５基于Ｔｒａｎｓｆｏｒｍｅｒ的視頻分類／２８２
７．５．１ＶｉＶｉＴ／２８２
７．５．２ＴｉｍｅＳＦｏｒｍｅｒ／２８５
７．５．３ＶｉｄｅｏＳｗｉｎＴｒａｎｓｆｏｒｍｅｒ／２８６
７．５．４ＶｉｄｅｏＣＬＩＰ／２８８
７．５．５ＶＬＭ／２９０
７．６時序動作定位／２９１
７．６．１單階段方法／２９２
７．６．２自頂向下的多階段方法／２９５
７．６．３自底向上的多階段方法／２９９
７．７本章小結(jié) ／３０４
參考文獻(xiàn) ／３０４
第８章圖像三維重建／３１１
８．１引言／３１１
８．２對極幾何／３１３
８．３相機標(biāo)定／３１７
８．４基于傳統(tǒng)算法的多視圖立體重建／３２１
８．４．１簡單的基于匹配三維點空間坐標(biāo)求解方法／３２１
８．４．２基于平面掃描的場景深度估計／３２２
８．４．３基于視差的深度估計／３２３
８．４．４基于ＰａｔｃｈＭａｔｃｈ的立體重建／３２５
８．５基于深度學(xué)習(xí)的多視角重建／３２８
８．５．１ＭＶＳＮｅｔ／３２９
８．５．２ＦａｓｔＭＶＳＮｅｔ／３３０
８．６基于深度學(xué)習(xí)的場景的單目深度估計／３３２
８．６．１有監(jiān)督學(xué)習(xí)的單目深度估計／３３２
８．６．２自監(jiān)督學(xué)習(xí)的單目視頻深度估計／３３５
８．７深度學(xué)習(xí)對基于不同形狀表達(dá)的三維重建／３３８
８．７．１基于體素的顯式三維表達(dá) ／３３８
８．７．２基于多邊形網(wǎng)格的顯式三維表達(dá) ／３４４
８．７．３基于隱函數(shù)的隱式物體表達(dá) ／３４８
８．７．４基于神經(jīng)立體渲染的多視角重建／３５３
８．８本章小結(jié) ／３７０
參考文獻(xiàn) ／３７０

你還可能感興趣

我要評論