作為計算機視覺領(lǐng)域里的頂級會議,CVPR 2019 錄取論文代表了計算機視覺領(lǐng)域在2019年最新的科技水平以及未來發(fā)展潮流。今年有超過 5165 篇大會論文投稿,最終錄取 1299 篇。這些錄取的最新科研成果,涵蓋了計算機視覺領(lǐng)域各項前沿工作。而此次介紹的來自美國天普大學(xué)(Temple University)和美圖-亮風(fēng)臺聯(lián)合實驗室的黃兵姚和凌海濱提出了端到端的投影廣度補償?shù)牟呗?。?jù)了解,相關(guān)論文《End-to-end Projector Photometric Compensation》還入選了CVPR 2019 的oral presentation,代碼已經(jīng)開源。
論文地址:
https://arxiv.org/abs/1904.04335v1
黃兵姚1,2,凌海濱1
1 天普大學(xué)
2 美圖亮風(fēng)臺聯(lián)合實驗室,亮風(fēng)臺信息科技
摘要
投影儀光度補償旨在修改投影儀輸入圖像,使得它可以抑制或抵消投影表面上面紋理或圖案帶來的干擾。
在本文中,我們首次將補償問題表述為端到端學(xué)習(xí)問題,并提出一個名為CompenNet的卷積神經(jīng)網(wǎng)絡(luò)來隱含地學(xué)習(xí)復(fù)雜的補償函數(shù)。 CompenNet由一個類似UNet的骨干網(wǎng)和一個自動編碼器子網(wǎng)組成。這種架構(gòu)鼓勵相機捕獲的投影表面圖像和輸入圖像之間的豐富的多級交互,因此捕獲投影表面的光度和環(huán)境信息。此外,視覺細(xì)節(jié)和交互信息是在多級跳過卷積層中進(jìn)行的。該架構(gòu)對于投影儀補償任務(wù)特別重要,因為在實踐中僅允許使用很小的訓(xùn)練數(shù)據(jù)集來保證模型學(xué)習(xí)的速度。
我們做出的另一項貢獻(xiàn)是一種新穎的評估基準(zhǔn),它獨立于系統(tǒng)設(shè)置,因此可以進(jìn)行定量驗證。據(jù)我們所知,由于傳統(tǒng)評估要求硬件系統(tǒng)實際投影最終結(jié)果,因此以前無法獲得此類基準(zhǔn)測試。從我們的端到端問題公式出發(fā),我們的主要思想是使用合理的替代來避免這種投影過程,從而達(dá)到獨立于系統(tǒng)設(shè)置的評估標(biāo)準(zhǔn)。我們的方法在基準(zhǔn)測試中得到了仔細(xì)的評估,結(jié)果表明,我們提出的解決方案在定性和定量指標(biāo)上都優(yōu)于現(xiàn)有技術(shù)水平。
1. 介紹
圖1. (a)正常光照下的具有紋理和顏色的投影屏幕。(b)投影儀投射的圖片(也是我們想要看到的效果)。(c)相機拍攝到的,沒有補償?shù)耐队敖Y(jié)果,即將(b)直接投影到(a)上。(d)我們模型計算出的補償圖。(e)相機拍到的補償后的效果,即將(d)投影到(a)上。比較(c)和(e),我們看到明顯提升的效果和細(xì)節(jié)。
投影儀廣泛用于演示,電影,結(jié)構(gòu)光和投影映射等應(yīng)用。為了保證用戶看到的投影質(zhì)量,現(xiàn)有的投影儀系統(tǒng)典型地要求投影表面(屏幕)是白色和無紋理的,并且處在在合理的環(huán)境光照下。然而這種要求在很大程度上限制了這些系統(tǒng)的適用性。為了解決以上限制,投影儀光度補償,或簡稱投影儀補償,旨在通過修改投影儀輸入圖像來補償投影表面以及相關(guān)的環(huán)境光度。如圖1所示,其中補償?shù)耐队敖Y(jié)果(e)明顯比未補償?shù)耐队敖Y(jié)果(c)更令人視覺舒適。
典型的投影儀補償系統(tǒng)包括相機-投影儀對和放置在固定距離和方向上的投影表面。首先,投影儀將一系列采樣圖像投射到投影表面,然后投射的采樣圖像會根據(jù)投影表面材料被吸收,被反射或被折射。一旦相機捕獲了所有投影的采樣圖像,我們會根據(jù)投射的和捕獲的采樣圖像對來擬合一個從投影儀輸入圖到相機捕獲圖的復(fù)合輻射傳遞函數(shù)。然后使用該函數(shù)(或其反函數(shù))推斷新的投影儀輸入圖像的補償圖像。現(xiàn)有的解決方案通常顯式地地對補償函數(shù)進(jìn)行建模,其中通過各種簡化的假設(shè),使得補償函數(shù)的估計變得容易。然而,這些假設(shè)往往是違反實際情況的,例如依賴于背景(第2節(jié))。此外,由于投影,反射和捕獲這個光學(xué)過程的巨大復(fù)雜性,對補償過程顯式建模幾乎是不可能的。在本文中,我們首次提出了端到端投影儀補償方案,用以解決上述問題。我們首先將補償問題重新定義為一種可以在線學(xué)習(xí)的新穎形式,如同投影儀補償實際要求的那樣。這種問題構(gòu)造就使得我們開發(fā)出一種名為CompenNet的卷積神經(jīng)網(wǎng)絡(luò)(CNN),以隱含地學(xué)習(xí)復(fù)雜的補償函數(shù)。特別是,CompenNet由兩個子網(wǎng)組成,一個類似UNet的骨干網(wǎng)和一個自動編碼器子網(wǎng)。首先,自動編碼器子網(wǎng)激勵相機捕獲的投影表面圖像和投影儀輸入圖像之間的豐富的多層次交互,這樣我們可以提取到投影表面的光度和環(huán)境信息。其次,類似UNet的骨干網(wǎng)絡(luò),我們也使用多級跳過卷積層將視覺細(xì)節(jié)和交互信息傳送到更深層和輸出層。這兩個子網(wǎng)共同使CompenNet在實踐中有效,并使得CompenNet學(xué)習(xí)從相機捕獲到的投影圖像到投影儀輸入圖像的復(fù)雜反向映射。此外,我們還設(shè)計了一個預(yù)訓(xùn)練方案,只需犧牲一點精確度就可以進(jìn)一步提高網(wǎng)絡(luò)訓(xùn)練效率。本文討論的另一個問題是目前這個領(lǐng)域缺乏一個投影儀補償模型的評價基準(zhǔn),主要是因為傳統(tǒng)評價高度依賴于環(huán)境設(shè)置。具體地說,為了評估補償算法,理論上,其實驗結(jié)果是需要實際投影和捕獲,然后再定量地與真值進(jìn)行比較。這個過程使得共享相同的評價基準(zhǔn)不切實際的。在我們這項工作中,我們提出一個替代評價協(xié)議,該協(xié)議不要求實際投影。這樣,我們首次構(gòu)建了一個可共享的獨立于環(huán)境設(shè)置的評價基準(zhǔn)。
本文提出的投影儀補償網(wǎng)絡(luò),即CompenNet,在替代評價基準(zhǔn)上進(jìn)行評估,該基準(zhǔn)經(jīng)過精心設(shè)計,以涵蓋各種具有挑戰(zhàn)性的因素。在實驗中, 與最先進(jìn)的解決方案相比CompenNet顯示出明顯的優(yōu)勢??傊?,在本文中,我們做出以下貢獻(xiàn):
1. 我們首次提出了一種用于投影儀補償?shù)亩说蕉私鉀Q方案。這種解決方案允許我們的系統(tǒng)有效地和隱式地捕獲投影儀補償過程中涉及的復(fù)雜光學(xué)過程。
2. 我們提出的CompenNet有兩個重要的子網(wǎng),它們可以讓投影表面和投影儀輸入圖像之間實現(xiàn)豐富的多層次交互,并通過網(wǎng)絡(luò)傳輸交互信息和結(jié)構(gòu)細(xì)節(jié)。
3. 我們提出了一種預(yù)訓(xùn)練方法,以進(jìn)一步提高我們系統(tǒng)的實用效率。
4. 我們首次構(gòu)建了與獨立于環(huán)境設(shè)置的投影儀補償評價基準(zhǔn),這有助于這個領(lǐng)域?qū)淼难芯抗ぷ?。源代碼,基準(zhǔn)測試和實驗結(jié)果可在https://github.com/BingyaoHuang/CompenNet上獲得。
2. 相關(guān)研究
理論上,投影儀補償過程是一個非常復(fù)雜的非線性函數(shù),涉及相機和投影儀傳感器的輻射響應(yīng),鏡頭失真/漸暈,散焦,表面材料反射特性和相互反射。目前已有大量的研究致力于設(shè)計實用和準(zhǔn)確的投影儀補償模型,這些模型大致可分為情景相關(guān)和情景獨立的模型。詳細(xì)的討論可以在[4,12]中找到。
情景獨立的方法通常假設(shè)在投影儀輸入圖像和相機捕獲圖像的像素之間存在近似的一對一映射,即,相機捕獲圖像的像素僅取決于其對應(yīng)的投影儀輸入圖像的像素,和被這個投影儀像素照明的表面塊。即,每個像素大致獨立于其鄰域像素。 Nayar等人的先驅(qū)工作提出了一種線性模型,該模型使用3×3顏色混合矩陣將投影儀光線亮度映射到相機檢測到的輻照度。 Grossberg等通過在相機捕獲的輻照度上添加3×1矢量來改善Nayar的工作并對環(huán)境光照進(jìn)行建模。然而,他們需要一個光譜輻射計來標(biāo)定相機的均勻輻射響應(yīng)函數(shù)。此外,正如[20]中所指出的,即使使用光譜輻射計,通常也會違反均勻輻射響應(yīng)的假設(shè),更不用說線性度??紤]到傳遞函數(shù)的非線性,Sajadi等用93 = 729個采樣圖像擬合了一個平滑的高維Bezier貼片模型 。 Grundhofer和Iwai提出了一種基于薄板樣條(TPS)的方法,并將采樣圖像的數(shù)量減少到53 = 125,并通過全局優(yōu)化步驟進(jìn)一步處理剪切誤差和圖像平滑度。除了以數(shù)學(xué)方式優(yōu)化圖像顏色之外,有一些方法還特別關(guān)注人類視覺感知特性,例如,Huang等人通過探索人類視覺系統(tǒng)的色彩適應(yīng)和感知錨定屬性來生成令人視覺愉悅的投影圖像。此外,使用色域縮放可最大限度地減少由于相機/投影儀傳感器限制導(dǎo)致的剪切偽影。盡管以上方法在很大程度上簡化了投影儀補償問題,但由于諸如投影儀和投影表面的距離,透鏡畸變,散焦和表面相互反射等許多因素,在實踐中通常會違反情景獨立的假設(shè)。此外,顯然一條投影儀射線可以照射多個表面塊,一個表面塊也可以被其周圍表面塊的相互反射來照明,并且相機像素也是由多條貼片反射的光線確定的。
情景相關(guān)的方法通過考慮來自鄰域的信息來補償像素。 Grundhofer等通過先前分析投影表面和圖像來處理視覺偽像并提高亮度和對比度。Li等通過稀疏采樣和線性插值將采樣圖像的數(shù)量減少到至少兩個。他們提取多維反射矢量作為顏色傳遞函數(shù)控制點。由于采樣點的尺寸小,這種方法可能是敏感的投影或聚焦和鏡頭漸暈。使用這些不可靠的樣本進(jìn)行簡單的線性插值可能會增加補償誤差。除了計算一個補償模型,Aliaga等引入了運行時線性縮放操作來優(yōu)化多個投影儀補償。Takeda等提出了一種使用紫外LED陣列的相互補償方法。情景相關(guān)類方法通常通過集成更多信息來改進(jìn)先前的情景獨立的方法。然而,由于全局照明,投影表面和輸入圖像之間的復(fù)雜相互作用,很難對理想的補償過程進(jìn)行建?;蚪?。此外,大多數(shù)現(xiàn)有工作集中于減少像素顏色誤差,而不是同時改善與目標(biāo)圖像的像素顏色誤差和結(jié)構(gòu)相似性。我們的方法屬于情景相關(guān)類,并且實際上通過使用CNN結(jié)構(gòu)來捕獲更豐富的情景信息。作為第一個端到端的基于學(xué)習(xí)的解決方案,我們的方法隱式且有效地模擬了復(fù)雜的投影儀補償過程。此外,我們提出的評價基準(zhǔn)是第一個可以被共享的,可驗證的定量評估的基準(zhǔn)。
我們的方法其實受到了最近的基于深度學(xué)習(xí)的圖到圖遷移模型的啟發(fā),如pix2pix,CycleGAN,風(fēng)格轉(zhuǎn)移,圖像超分辨率和圖像著色等。也就是說,作為第一個基于深度學(xué)習(xí)的投影儀補償算法,我們的方法與這些研究有很大的不同,并且有其特殊的約束條件。例如,與上述訓(xùn)練一次然后就可以運用在不同場景的CNN模型不同,在我們的場景下如果系統(tǒng)設(shè)置發(fā)生了變化,則需要快速重新訓(xùn)練投影儀補償模型。然而,在實踐中,采集訓(xùn)練圖像和訓(xùn)練模型都是耗時的。此外,諸如圖像裁剪和仿射變換之類的數(shù)據(jù)增強不適用于我們的任務(wù),因為每個相機像素與其對應(yīng)的投影儀像素的鄰域以及由像素照射的投影表面貼片強耦合。此外,一般圖到圖的遷移模型不能擬合在全局光照,投影儀背光和投影表面之間的復(fù)雜光譜相互作用。事實上,在我們的實驗評價中,我們所提出的方法在定性和定量指標(biāo)上明顯的優(yōu)于經(jīng)典的pix2pix模型。
3. 深度投影儀補償
3.1 問題定義
我們的投影儀補償系統(tǒng)包括一個相機-投影儀對和一個平面投影表面。 令投影儀輸入圖像為x; 并讓投影儀和相機的復(fù)合幾何投影和輻射傳遞函數(shù)分別為πp和πc。 設(shè)表面光譜反射特性和光譜反射函數(shù)分別為s和πs。 讓全局照明輻照度分布為g,然后相機捕獲的圖像~x,由下式給出:
投影儀補償?shù)膯栴}是找到一個投影儀輸入圖像x*,名為x的補償圖像,使得相機捕獲的圖像與所希望的觀看者感知圖像一致,即,
然而,在上述情況下的光譜相互作用和光譜響應(yīng)是非常復(fù)雜的,并且傳統(tǒng)方法并不能很好的解決。 此外,實踐中也很難直接測量g和s。 出于這個原因,我們使用相機捕獲的全局照明和投影儀背光下的表面圖像,并用這張圖捕捉它們的光譜相互作用:
圖2:所提出的投影儀補償管道的流程圖包括三個主要步驟。 (a)投影并捕捉投影表面圖和一組采樣圖像。 (b)使用投影表面圖和捕獲的圖像對訓(xùn)練所提出的CompenNet,即π?θ。 (c)利用訓(xùn)練的模型,補償輸入圖像y并投影。
其中x0理論上是一張全黑的圖。 實際上,即使輸入圖像為黑色,投影儀也會輸出一些背光πp(x0),因此我們將這個因子封裝在~s中。 當(dāng)全局照明較低時,~s會受到因相機動態(tài)范圍導(dǎo)致的色域剪切影響,因此我們將x0設(shè)置為純灰色圖像以提供一些照明。 將方程式2中的復(fù)合輻射傳遞函數(shù)表示為π并用~s代替g和s,我們得到補償問題為
其中π?是π的逆函數(shù),顯然沒有閉解。
3.2 基于學(xué)習(xí)的表述
基于學(xué)習(xí)的解決方案的關(guān)鍵要求是可用的訓(xùn)練數(shù)據(jù)。 在下文中,我們推導(dǎo)出一種收集此類數(shù)據(jù)的方法。 觀察§3.1中的問題表述,我們發(fā)現(xiàn):
這表明我們可以從采樣的(~x,x)和一張投影表面圖學(xué)習(xí)π?,如圖3所示。 事實上,一些先前的解決方案使用了類似的想法來擬合π?,但是基于一些簡單的假設(shè)和沒有考慮~s。 相反,我們使用深度神經(jīng)網(wǎng)絡(luò)解決方案重新制定投影儀補償問題,該解決方案能夠保持投影儀補償?shù)膹?fù)雜性。 特別是,我們使用端到端可學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)對補償過程進(jìn)行建模,該網(wǎng)絡(luò)名為CompenNet,本文中表示為π?θ(見(圖2(b)),使得:
其中^x是~x(不是x)的補償,θ包含可學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)。 值得注意的是,只要環(huán)境設(shè)置不變,就可以固定~s,因此在訓(xùn)練和預(yù)測中只需要一個~s。 通過使用方程式5,我們可以生成N個訓(xùn)練對,表示為然后,利用損失函數(shù)L,可以學(xué)習(xí)CompenNet:
我們的損失函數(shù)旨在通過結(jié)合逐像素L1范數(shù)和SSIM損失來共同優(yōu)化補償圖像的結(jié)構(gòu)與目標(biāo)圖像的相似性:
這種損失函數(shù)優(yōu)于其他損失函數(shù)的優(yōu)點顯示在[39]和我們在表3和圖5中的綜合實驗比較中。
3.3 網(wǎng)絡(luò)設(shè)計
基于上述公式,我們的CompenNet設(shè)計有兩個輸入圖像,~x和~s,分別對應(yīng)于相機捕獲的未補償圖x和相機捕獲的投影表面圖。 網(wǎng)絡(luò)架構(gòu)如圖3所示。兩個輸入和輸出均為256×256×3 RGB圖像。 兩個輸入圖像都被饋送到一系列卷積層以進(jìn)行降采樣并提取多級特征圖。 請注意,在圖3中,我們給出兩條不同的顏色的路徑,以指示兩個分支不共享權(quán)重。 然后通過逐點加法組合多級特征圖,使模型能夠?qū)W習(xí)在全局光照,投影背光,表面和投影圖像之間的復(fù)雜光譜相互作用。
圖3:CompenNet的體系結(jié)構(gòu)(省略了ReLU層)。 所有卷積層由3×3卷積核組成,所有轉(zhuǎn)置卷積層由2×2卷積核組成。 上采樣和下采樣層都使用兩步。 每層的卷積核數(shù)量標(biāo)在其頂部。 跳過卷積層以彩色箭頭顯示,為了簡介表示,層數(shù)和層數(shù)標(biāo)記為#layers_#filters。 學(xué)習(xí)從相機捕獲的未補償圖到投影儀輸入圖(左:~x →x)的反向映射與學(xué)習(xí)從期望觀察者感知的圖到補償圖的映射(右:x →x *)其實是相同的。
我們還通過跳過卷積層將低級交互信息傳遞給高級特征。在網(wǎng)絡(luò)中間部分,我們通過逐漸增加特征通道來提取豐富的特征,同時保持特征圖的寬度和高度不變。然后,我們使用兩個轉(zhuǎn)置的卷積層逐漸將特征映射上采樣到256×256×32。最后,網(wǎng)絡(luò)的輸出是圖3底部的三個跳過卷積層和網(wǎng)絡(luò)最后層的輸出的和。注意我們在輸出之前將輸出圖像像素值鉗位到[0,1]。我們發(fā)現(xiàn)用更多的CNN層和卷積核,例如,512個卷積核可以產(chǎn)生更好的補償結(jié)果,但是會過擬合,并且會增加訓(xùn)練和預(yù)測時間。但是,如果某個應(yīng)用場景更偏重精確而不是速度,它可以添加更多卷積層,增加迭代次數(shù)并相應(yīng)地捕獲更多訓(xùn)練數(shù)據(jù)。在本文中,我們選擇圖3中的架構(gòu)來平衡訓(xùn)練/預(yù)測時間和采樣數(shù)據(jù)量。為了使該方法更實用,我們還通過使用白色投影表面投影和捕獲N(N = 500)個采樣圖像來提供預(yù)訓(xùn)練模型。一旦設(shè)置(例如,投影表面或全局照明)改變,我們可以使用較少的(例如32個)采樣圖來微調(diào)預(yù)訓(xùn)練的模型,而不是重新捕獲500個訓(xùn)練圖像。該技術(shù)節(jié)省了數(shù)據(jù)準(zhǔn)備和模型訓(xùn)練的時間,相對于現(xiàn)有解決方案這更說明了我們的優(yōu)勢。我們在§5.3中證明了預(yù)訓(xùn)練模型的有效性。
3.4 訓(xùn)練細(xì)節(jié)
我們使用PyTorch實現(xiàn)網(wǎng)絡(luò)模型并使用Adam優(yōu)化器,我們設(shè)置β1= 0.9和L2范數(shù)懲罰因子設(shè)置為10-4。初始學(xué)習(xí)率設(shè)置為10-3,并且我們每800次迭代將其衰減5倍。 使用Kaiming He的方法初始化模型權(quán)重。 我們將批量大小設(shè)置為64,并在兩個Nvidia GeForce 1080 GPU上訓(xùn)練模型1000次迭代,完成訓(xùn)練需要大約10分鐘(500個訓(xùn)練樣本)。 補充材料提供了不同超參數(shù)的評估。
3.5 補償管道
總而言之,所提出的投影儀補償管道包括圖2所示的三個主要步驟。(a)我們首先將純灰色圖像x0和N個采樣圖像x1,...,xN投影到平面投影表面并用相機捕獲它們。然后使用單應(yīng)矩陣將每個捕獲的圖像變換到投影儀的正視圖,并使用我們令變換后的相機圖為~xi。(b)之后,我們收集N個圖像對(~xi,xi)并訓(xùn)練投影儀補償模型π?θ。 (c)最后,利用訓(xùn)練模型,我們?yōu)檩斎雸D像y生成補償圖像y *并將y *投影到表面。
4. 評價基準(zhǔn)
目前為止,還有一個問題沒有解決,即以前的研究中缺乏一致的定量評估基準(zhǔn),主要是因為傳統(tǒng)評估實驗高度依賴環(huán)境設(shè)置。理論上,為了評估補償算法,其算出的輸入圖x的補償圖像x *應(yīng)該被實際投射到投影表面,然后再由相機捕獲,最后與真值進(jìn)行定量比較。這個過程顯然是不實用的,因為它要求所有參與比較的算法都具有相同的投影儀-相機-環(huán)境設(shè)置,以便公平地比較不同的算法。
在這項工作中,根據(jù)我們的問題定義,我們得出了一個有效的替代評估協(xié)議,該協(xié)議不要求實際的投影。基本上,根據(jù)方程式5,我們用采集訓(xùn)練樣本相同的方式收集測試樣本。我們也可以用類似的方式評估算法。具體而言,我們在與訓(xùn)練集X相同的系統(tǒng)設(shè)置下收集M個樣本的測試集
。然后,可以通過平均所有測試集上的輸入圖像yi及其算法輸出的相似度來測量算法性能。
上述協(xié)議允許我們構(gòu)建一個投影儀補償評估基準(zhǔn),該基準(zhǔn)由K個不同設(shè)置組成,每個設(shè)置具有訓(xùn)練集Xk,測試集Yk和表面圖像~sk,k = 1,...,K。
系統(tǒng)配置。我們的投影儀補償系統(tǒng)包括圖像分辨率為960×640的佳能6D相機,以及分辨率為800×600的ViewSonic PJD7828HDL DLP投影儀。相機與投影儀之間的距離為500mm,投影表面在相機 - 投影儀對前方約為1,000mm。相機曝光模式,對焦模式和白平衡模式設(shè)置為手動,在數(shù)據(jù)采集和系統(tǒng)驗證期間固定全局照明。
數(shù)據(jù)集。為了獲得盡可能多樣化的采樣顏色和紋理,我們從因特網(wǎng)下載700個彩色紋理圖像,并且對于每個訓(xùn)練集Xk使用N = 500,對于每個測試集Yk使用M = 200??偣睰 = 24個不同的設(shè)置準(zhǔn)備用于訓(xùn)練和評估。未來的工作可以復(fù)制我們的結(jié)果,并在基準(zhǔn)測試中與CompenNet進(jìn)行比較,而無需復(fù)現(xiàn)我們的環(huán)境設(shè)置。有關(guān)更多相機捕獲的補償結(jié)果和基準(zhǔn)測試的詳細(xì)配置,請參閱補充材料。
(鏈接:
http://www.dabi.temple.edu/~hbling/publication/CompenNet_sup.pdf)
5. 實驗評估
5.1 與現(xiàn)有技術(shù)進(jìn)行比較
我們將我們的投影儀補償方法和情景獨立的TPS模型,改進(jìn)的TPS模型(下面解釋)和經(jīng)典的圖到圖遷移模型pix2pix在我們的基準(zhǔn)庫上進(jìn)行了比較。我們首先捕獲了原始TPS方法中使用的125對純色采樣圖像。我們還使用我們了多樣化的紋理訓(xùn)練集Xk來訓(xùn)練TPS方法,并命名為TPS textured。表1和圖4中的實驗結(jié)果表明這使得TPS在原始TPS方法上有改進(jìn)。然后,我們將我們的方法與pix2pix進(jìn)行比較,以證明投影儀補償問題的挑戰(zhàn),以及我們的配方和架構(gòu)的優(yōu)勢。 我們采用了pix2pix的默認(rèn)實現(xiàn),并根據(jù)補償問題對其進(jìn)行了一些調(diào)整:
(1)如§2所述,數(shù)據(jù)增強會破壞投影儀,相機和投影表面的強耦合,因此,我們禁用裁剪,調(diào)整大小和翻轉(zhuǎn),從而在相機,表面和投影儀圖像之間進(jìn)行耦合。
(2)我們訓(xùn)練pix2pix模型時批量大小設(shè)置為1并進(jìn)行10000次迭代,這大約需要10分鐘。比較結(jié)果表明,我們的方法在此任務(wù)上的表現(xiàn)優(yōu)于pix2pix。我們發(fā)現(xiàn),當(dāng)數(shù)據(jù)大小增加時,TPS textured獲得略微增加的SSIM并略微降低的PSNR。當(dāng)訓(xùn)練數(shù)據(jù)大小為250時, Pix2pix顯示最低的PSNR和SSIM,當(dāng)訓(xùn)練數(shù)據(jù)大小為500時其具有最高的PSNR和SSIM。當(dāng)訓(xùn)練數(shù)據(jù)大小從125增加到500時,只有建CompenNet實現(xiàn)更高的PSNR和SSIM(表1)。盡管CompenNet的性能有所提高,但大數(shù)據(jù)量的缺點是增加了數(shù)據(jù)捕獲時間。實際上,拍攝數(shù)百張采樣圖像非常耗時,因此,針對有限的訓(xùn)練對和訓(xùn)練時間時,我們提出了一種預(yù)訓(xùn)練模型,其性能優(yōu)于默認(rèn)模型(§5.3)。除了上述的現(xiàn)有技術(shù),我們還測試了不基于模型的“連續(xù)反饋的優(yōu)化”方法,并發(fā)現(xiàn)它運作良好。然而,它的缺點是每個單幀都需要采集幾個真實的投影,捕獲和迭代。因此,該方法不太實用,也不能用于替代評估基準(zhǔn)。
5.2 表面圖像的有效性
為了展示我們提出的基于學(xué)習(xí)的問題定義和投影表面圖是模型的一個必要輸入,我們比較了沒有表面圖輸入和相應(yīng)的自動編碼器子網(wǎng)的CompenNet,我們將其命名為CompenNet w/o surf。結(jié)果如表1所示。首先,當(dāng)模型輸入(CompenNet)中包含~s時,我們可以看到PSNR和SSIM的明顯增加以及RMSE的下降。這表明我們基于學(xué)習(xí)的公式比忽略表面圖像中編碼的重要信息的模型具有明顯的優(yōu)勢。其次,在PSNR, RMSE和SSIM指標(biāo)上,即使CompenNet w/o surf沒有~s也優(yōu)于TPS,TPS textured和pix2pix。值得注意的是,對于新的投影環(huán)境設(shè)置,僅僅更換表面圖像效果不佳,我們必須要從頭開始訓(xùn)練新的CompenNet。幸運的是,通過預(yù)先訓(xùn)練的模型,我們可以從合理的初始化中進(jìn)行微調(diào),以減少訓(xùn)練圖像的數(shù)量和訓(xùn)練時間。
5.3 預(yù)先訓(xùn)練的模型的有效性
我們比較默認(rèn)的CompenNet模型(使用He 的初始化),和用投射到白色表面的500個訓(xùn)練對預(yù)訓(xùn)練的模型。然后,我們在多個不同設(shè)置下訓(xùn)練和評估的兩個模型。
圖4:不同表面上TPS ,TPS textured,pix2pix 和CompenNet的比較。 第1列是相機捕獲的投影表面。 第二列是相機捕獲的未補償投影圖像。 第3至第6列是不同方法的相機拍攝到的補償結(jié)果。最后一列是投影儀輸入圖的真值。 每個圖像都配有兩個放大的小圖,以便進(jìn)行詳細(xì)比較。 當(dāng)使用各種紋理圖像進(jìn)行訓(xùn)練時,TPS比使用純色圖像的原始版本產(chǎn)生更好的結(jié)果,但仍然存在硬邊緣,塊狀效果和顏色錯誤。 與CompenNet相比,pix2pix會產(chǎn)生不平滑的像素化細(xì)節(jié)和顏色錯誤。
圖5:CompenNet的定性比較,訓(xùn)練損失函數(shù)分別為L1,L2,SSIM和1 + SSIM。 它表明,L1和L2損失函數(shù)無法成功地補償表面圖案。 1 + SSIM和SSIM損失函數(shù)產(chǎn)生類似的結(jié)果,但SSIM放大圖中的水比1+ SSIM和真值的更藍(lán)。
為了證明預(yù)訓(xùn)練模型在有限的訓(xùn)練對和訓(xùn)練時間內(nèi)獲得改進(jìn)的性能,我們僅使用32個訓(xùn)練對和500次迭代訓(xùn)練模型。 結(jié)果報告在表2中。顯然,我們看到預(yù)訓(xùn)練的模型優(yōu)于默認(rèn)CompenNet即使是24個訓(xùn)練和評估設(shè)置也有不同的照明和表面紋理作為預(yù)先訓(xùn)練的設(shè)置。 我們的解釋是,盡管表面具有不同的外觀,但預(yù)訓(xùn)練模型已經(jīng)學(xué)習(xí)了部分輻射傳遞函數(shù)
表1:補償算法的定量比較。 結(jié)果在K = 24個不同設(shè)置上取平均值。
這種預(yù)先訓(xùn)練的模型使我們的方法更加實用,即,只要不改變投影儀和相機,就可以用更少的訓(xùn)練圖像快速微調(diào)預(yù)訓(xùn)練模型,從而縮短圖像捕獲和訓(xùn)練時間。 另外用32個訓(xùn)練對和500此迭代訓(xùn)練的CompenNet,比表1中的TPS ,TPS textured和pix2pix 表現(xiàn)更好。此外,CompenNet的參數(shù)(1M)比pix2pix的默認(rèn)生成網(wǎng)絡(luò)(54M參數(shù))少得多。 這進(jìn)一步證實了投影儀補償是一個復(fù)雜的問題,并且不同于一般的圖到圖遷移任務(wù),精心設(shè)計的模型是解決該問題所必需的。
5.4 不同損失函數(shù)的比較
現(xiàn)有的傳統(tǒng)工作用逐像素L2損失函數(shù)來線性/非線性回歸得到復(fù)合輻射傳遞函數(shù),這種損失函數(shù)會過度平滑結(jié)構(gòu)細(xì)節(jié)的同時懲罰大的像素誤差。我們研究了四種不同的損失函數(shù),即逐像素L1損失,逐像素L2損失,SSIM損失和1 + SSIM損失。定性和定量比較分別如圖5和表3所示。與SSIM損失函數(shù)相比,逐像素L1和L2損失函數(shù)不能很好地補償表面圖案,注意圖5中紅色放大的圖中的硬邊緣。與定性結(jié)果一致,表3中也顯示出逐像素L1和L2損失函數(shù)明顯缺點。雖然僅實用SSIM損失可以獲得最佳的SSIM值,但其PSNR和RMSE是第二差的。經(jīng)過我們的全面實驗,我們發(fā)現(xiàn)1 + SSIM損失獲得了最佳的PSNR / RMSE和第二好的SSIM,因此,我們選擇它作為我們的CompenNet的損失函數(shù)。此外,即使我們用逐像素L1損失訓(xùn)練CompenNet,它也比TPS,TPS textured和pix2pix在三個指標(biāo)上好,這進(jìn)一步說明了我們針對任務(wù)設(shè)計的公式和網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢。
表2:使用He方法隨機初始化的CompenNet和預(yù)訓(xùn)練的CompenNet之間的定量比較,兩者均僅使用32個樣本訓(xùn)練,500次迭代,批次大小為32,訓(xùn)練耗時大約170s。
表3:不同損失函數(shù)下CompenNet的定量比較。
5.5 缺點和不足
我們專注于為投影儀補償問題引入第一個端到端解決方案,該方法可用于平面的,不一定是理想的反射/幾何質(zhì)量的投影表面。此外,我們還沒有針對具有特殊反射性能的表面,比如水,強光反射,幾何相互反射和半光澤的表面進(jìn)行實驗,因此在這些情況下我們的模型可能效果不佳。
6. 結(jié)論
在本文中,我們將投影儀補償問題重新表述為一個學(xué)習(xí)問題,并提出一個名為CompenNet的精確實用的端到端解決方案。特別是,CompenNet明確捕獲了環(huán)境,投影表面和投影儀圖像之間復(fù)雜的光譜相互作用。我們的數(shù)學(xué)模型和架構(gòu)的有效性得到了綜合評估的驗證。此外,我們首次為社區(qū)提供了一種新穎的獨立于設(shè)置的評估基準(zhǔn)數(shù)據(jù)集。我們的方法在該基準(zhǔn)測試中得到了仔細(xì)評估,結(jié)果表明,我們的端到端學(xué)習(xí)解決方案在質(zhì)量和定量上都超過了現(xiàn)有方法。為了使我們的模型更加實用,我們提出了一種預(yù)訓(xùn)練方法,它更增加了我們方法相對于現(xiàn)有工作的優(yōu)勢。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103663 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4381瀏覽量
64910 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1709瀏覽量
46783
原文標(biāo)題:亮風(fēng)臺新提端到端AR投影光學(xué)補償算法 | CVPR 2019 Oral
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

評論