本書詳細論述了立體視覺信號質(zhì)量評價的作用、方法及其性能度量,其中立體視覺信號質(zhì)量評價方法面向多種立體視覺信號,包括三維圖像、合成圖像和自由視點視頻。本書分為三部分:第一部分論述了立體視覺信號質(zhì)量評價的發(fā)展背景及作用、二維圖像質(zhì)量評價、三維圖像質(zhì)量評價、合成圖像質(zhì)量評價和合成視頻質(zhì)量評價,并論述了方法性能度量;第二部分論述了面向三維圖像、合成圖像和自由視點視頻的質(zhì)量評價方法,并對其性能進行了詳細比較;第三部分總結(jié)了全書并介紹了潛在的研究方向。本書對關(guān)鍵問題進行了詳細的數(shù)學描述,并給出了大量的圖示和性能對比表格,以易于讀者閱讀和理解。本書適合作為高等院校計算機科學與技術(shù)和相關(guān)專業(yè)數(shù)字圖像處理和計算機視覺課程教材,也可供對視覺質(zhì)量評價領(lǐng)域感興趣的人員參考。
立體視覺信號質(zhì)量評價在多媒體信息管理中不可或缺,具有重要的研究價值和應(yīng)用價值。本書面向三維圖像、合成圖像和自由視點視頻三種立體視覺信號,論述立體視覺信號質(zhì)量評價研究工作,旨在讓讀者了解新式媒體應(yīng)用中的視覺質(zhì)量度量問題,從而進一步了解當前科技發(fā)展的前沿,如虛擬現(xiàn)實、增強現(xiàn)實、人機交互等。
立體成像技術(shù)的迅速發(fā)展使得立體視覺信號成為人們生活中重要的多媒體數(shù)據(jù),立體成像技術(shù)也給人們的日常生活帶來了巨大的變化。多媒體立體視覺技術(shù)在服務(wù)人們?nèi)粘I罴疤嵘钯|(zhì)量的同時,也帶來了多媒體信息管理的難題。比如,海量的立體視覺信號的質(zhì)量參差不齊,如何準確地預測立體視覺信號的質(zhì)量并篩選出低質(zhì)量立體視覺信號是十分必要的,該操作可以有效地節(jié)約存儲空間并提高多媒體資源的利用率。另外,隨著人們對多媒體立體視覺技術(shù)帶來的視覺體驗要求逐漸增加,如何提升多媒體立體視覺技術(shù)成為學術(shù)界和工業(yè)界追求的目標。立體視覺信號質(zhì)量評價旨在準確地預測立體視覺信號的質(zhì)量,是海量立體視覺信號篩選的重要手段。同時,它可為立體視覺信號處理算法優(yōu)化和立體視覺系統(tǒng)優(yōu)化提供直接的優(yōu)化目標。因此,立體視覺信號質(zhì)量評價在多媒體信息管理中不可或缺,具有重要的研究價值和應(yīng)用價值。
本書面向三維圖像、合成圖像和自由視點視頻三種立體視覺信號,論述立體視覺信號質(zhì)量評價研究工作,旨在讓讀者了解新式媒體應(yīng)用中的視覺質(zhì)量度量問題,從而進一步了解當前科技發(fā)展的前沿,如虛擬現(xiàn)實、增強現(xiàn)實、人機交互等。本書的主要內(nèi)容如下:
(1)針對大部分現(xiàn)有三維圖像質(zhì)量評價模型僅考慮高級語義特征融合問題,本書提出融合多層級語義特征的三維圖像質(zhì)量評價模型,它包含一個權(quán)值共享的特征提取模塊、一個特征融合模塊和一個質(zhì)量回歸模塊。首先,受多層級視覺感知機制啟發(fā),使用一個權(quán)值共享的深度卷積神經(jīng)網(wǎng)絡(luò),提取左右視圖低級、中級和高級語義特征。其次,考慮到雙目視覺特性,構(gòu)建特征融合模塊。該模塊先分別融合左右視圖的不同層級語義特征,再通過兩個卷積操作進一步融合多層級語義特征。最后,構(gòu)建包含多個全連接網(wǎng)絡(luò)的質(zhì)量回歸模塊,輸出三維圖像的質(zhì)量分數(shù)。本書在兩個常用的三維圖像質(zhì)量評價數(shù)據(jù)集上進行實驗,實驗結(jié)果表明所提出的模型性能超過了其他對比的模型。
(2)針對當前公開的三維圖像質(zhì)量評價數(shù)據(jù)集規(guī)模過小導致模型性能比較可信度不足的問題,本書開展基于弱監(jiān)督學習的三維圖像質(zhì)量評價研究。首先,構(gòu)建首個大規(guī)模三維圖像質(zhì)量評價數(shù)據(jù)集,并自動生成三維圖像對的相對質(zhì)量作為粗粒度標簽,生成單一視圖質(zhì)量作為偽標簽。其次,利用構(gòu)建的三維圖像質(zhì)量評價數(shù)據(jù)集,重新訓練當前主流的三維圖像質(zhì)量評價模型,以更加公平的方式比較不同的模型,并探索網(wǎng)絡(luò)框架、輸入尺寸和額外的監(jiān)督信號對模型性能的影響。所有的測試模型均在當前公開的數(shù)據(jù)集上測試,實驗結(jié)果證明了本書構(gòu)建的三維圖像數(shù)據(jù)集的必要性,并獲得了關(guān)于三維圖像質(zhì)量評價模型多維度的比較。
(3)針對DIBR過程引入的非均勻失真難度量問題,本書提出結(jié)合局部變化感知和全局自然性建模的合成圖像質(zhì)量評價方法。首先,使用局部高斯導數(shù)計算圖像的局部泰勒展開,用于表征圖像局部結(jié)構(gòu)信息。進一步地,使用局部二值模式表示初始結(jié)構(gòu)特征,并使用局部結(jié)構(gòu)特征幅值對初始結(jié)構(gòu)特征進行加權(quán),得到最終的結(jié)構(gòu)特征。同時,計算圖像的色度信息和顏色角度信息。類似地,計算得到顏色特征。結(jié)構(gòu)特征和顏色特征共同用于感知局部變化。其次,使用全局自然性度量全局變化,包括亮度自然性和結(jié)構(gòu)自然性。其中,亮度圖通過局部歸一化操作獲得;結(jié)構(gòu)圖通過計算合成圖與其低通濾波圖的差異圖得到。最后,結(jié)合局部變化和全局自然性共同度量合成圖像質(zhì)量。實驗證明,本書提出的方法能夠有效地度量合成圖像的質(zhì)量。并且,通過剝離實驗證明了局部感知和全局建模在度量合成圖像質(zhì)量變化上的有效性和互補性。
(4)針對當前自由視點視頻體驗質(zhì)量評價研究中內(nèi)容簡單、數(shù)據(jù)量少的問題,開展自由視點視頻體驗質(zhì)量評價研究?紤]到應(yīng)用場景僅有兩種(中國男子籃球聯(lián)賽和綜藝節(jié)目),本書提出有限場景內(nèi)的多樣化數(shù)據(jù)收集策略,構(gòu)建首個大規(guī)模自由視點視頻體驗質(zhì)量評價數(shù)據(jù)集。其次,提出從粗至細的兩階段主觀數(shù)據(jù)標注法。第一階段為挑出確定的樣本,即受試者對此類樣本的評分一致性概率較高;第二階段則繼續(xù)為不確定的樣本打分。通過深入分析主觀數(shù)據(jù),研究深度信息和人物聚集程度對自由視點視頻體驗的影響。另外,考慮到模型性能和效率的平衡,設(shè)計快速、有效的自由視點視頻體驗質(zhì)量預測基準模型。率先探索幀稀疏采樣對模型性能的影響,測試多種稀疏采樣策略。實驗證明,僅使用自由視點視頻的部分幀,就可以準確地預測整個自由視點視頻的體驗質(zhì)量。
本書各章之間的關(guān)系如圖1所示,內(nèi)容圍繞立體視覺信號展開,具體組織結(jié)構(gòu)如下。第1章是導論,首先介紹立體視覺信號質(zhì)量評價的作用,然后分別介紹二維圖像質(zhì)量評價、三維圖像質(zhì)量評價、合成圖像質(zhì)量評價、合成視頻質(zhì)量評價研究,最后詳細介紹立體視覺信號質(zhì)量評價方法性能度量。第2章提出融合多層級語義特征的三維圖像質(zhì)量評價框架?紤]雙目視覺特性和多層級視覺感知特性,設(shè)計融合多層級語義特征的三維圖像質(zhì)量評價模型。該模型使用孿生網(wǎng)絡(luò)分別提取三維圖像左右視圖的低、中和高級語義特征,再分別融合不同層級語義特征,最后融合不同層級交互特征,通過非線性映射,得到三維圖像質(zhì)量分數(shù)。第3章提出基于弱監(jiān)督學習的三維圖像質(zhì)量評價框架。針對有限訓練集容易造成模型過擬合問題,進而降低模型的可擴展能力,且難以確定不同模型真正的優(yōu)劣,提出基于弱監(jiān)督學習的三維圖像質(zhì)量評價框架。為了解決數(shù)據(jù)量少的問題,構(gòu)建大型三維圖像質(zhì)量評價數(shù)據(jù)集(僅包含粗粒度標簽和偽標簽),并在該數(shù)據(jù)集上使用排序?qū)W習訓練不同的基準模型,探究當前主流三維圖像質(zhì)量評價模型性能優(yōu)劣。進一步地,研究輸入大小對模型的影響,以及三維圖像對之間的視覺偏好約束和單視圖預測約束對模型性能的影響。第4章提出融合局部感知和全局建模的合成圖像質(zhì)量評價方法。針對虛擬合成圖像非均勻失真度量難問題,分別使用局部感知度量局部失真引起的質(zhì)量變化和全局建模度量全局質(zhì)量變化。其中,使用局部二值模式表征結(jié)構(gòu)信息和顏色信息,感知局部變化;使用全局自然性度量全局變化;結(jié)合局部和全局變化度量,計算虛擬合成圖像質(zhì)量分數(shù)。第5章開展體驗質(zhì)量研究。本書考慮有限應(yīng)用場景內(nèi)的數(shù)據(jù)多樣性,收集多視角合成視頻數(shù)據(jù),構(gòu)建一個大規(guī)模真實場景下的體驗質(zhì)量評價數(shù)據(jù)集;提出從粗至細的兩階段主觀數(shù)據(jù)標注法,節(jié)省約17%標注人力;結(jié)合多種稀疏采樣策略,設(shè)計快速、有效的體驗質(zhì)量預測基準模型。其中,第2、3章的研究對象是三維圖像,第4章的研究對象是合成圖像,第5章的研究對象是自由視點視頻。第6章提出方法總結(jié)與潛在的研究方向,總結(jié)本書的研究工作,并指出未來潛在的發(fā)展方向。
在本書編寫過程中,參考了國內(nèi)外眾多研究者的工作,在此衷心感謝他們對立體視覺信號質(zhì)量評價工作的貢獻。
衷心希望本書能夠給讀者帶來啟發(fā),引發(fā)更多有意義的研究工作。著者相信,立體視覺技術(shù)將得到進一步的發(fā)展,造福社會。由于著者水平有限,書中不妥和疏漏之處在所難免,歡迎廣大讀者批評指正。
著者
2023年6月
鄢杰斌,男,1994年12月生,博士,江西財經(jīng)大學信息管理學院講師,專業(yè)方向為多媒體處理和人工智能,主授課程包括多媒體技術(shù)基礎(chǔ)、人工智能實踐和學術(shù)論文寫作等,榮獲碩士研究生國家獎學金、博士研究生國家獎學金、江西省博士十佳學術(shù)之星、江西財經(jīng)大學研究生標兵等榮譽。