亚洲中文字幕丝袜制服,久草在线观看视频新,亚洲日本电影在线午夜高清精品视频

回顧 CVPR 2018 ，曠視科技有 8 篇論文被收錄，如高效的移動端卷積神經(jīng)網(wǎng)絡(luò) ShuffleNet、語義分割的判別特征網(wǎng)絡(luò) DFN、優(yōu)化解決人群密集遮擋問題的 RepLose、通過角點定位和區(qū)域分割優(yōu)化場景文本檢測的一種新型場景文本檢測器、率先提出的可復(fù)原扭曲的文檔圖像等等。

今年，曠視科技在 CVPR 2019 上共有 14 篇論文被接收。這 14 篇論文涉及行人重識別、場景文字檢測、全景分割、圖像超分辨率、語義分割、時空檢測等技術(shù)方向。今天，AI科技大本營就先為大家介紹這 14 篇論文，后續(xù)我們會繼續(xù)對各大科技公司的 CVPR 亮點工作進行深度報道，大家可以持續(xù)關(guān)注。

行人重識別

1、《Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification》：提出了局部可見感知模型——VPM。

論文摘要：

論文中考慮了行人重新識別 (re-ID) 的一個現(xiàn)實問題，即局部行人重識別問題。在局部行人重識別場景下，需要探索數(shù)據(jù)庫圖像中包含整體人物的比例大小。如果直接將局部行人圖像與整體行人圖像進行比較，則極端空間錯位問題將顯著地?fù)p害特征表征學(xué)習(xí)的判別能力。針對這個問題，本文提出了一個局部可見感知模型 (VPM)，通過自監(jiān)督學(xué)習(xí)感知可見區(qū)域內(nèi)的特征，來解決局部行人重識別問題。該模型利用可見感知的特性，能夠提取區(qū)域特征并比較兩張圖像的共享區(qū)域 (共享區(qū)域在兩張圖像上都是可見區(qū)域)，從而局部行人重識別問題上取得更好的表現(xiàn)。總的來說，VPM 有兩大優(yōu)勢：一方面，與學(xué)習(xí)全局特征的模型相比，VPM 模型通過學(xué)習(xí)圖像區(qū)域特征，能夠更好地提取一些細(xì)粒度特征信息。另一方面，利用可見感知特征，VPM 能夠估計兩個圖像之間的共享區(qū)域，從而抑制空間錯位問題。通過大量的實驗結(jié)果驗證，VPM 模型能夠顯著地改善特征表征的學(xué)習(xí)能力，并且在局部和整體行人重識別場景中，均可獲得與當(dāng)前最先進方法相當(dāng)?shù)男阅堋?/p>

圖像 3D 紋理生成

2、《Re-Identification Supervised 3D Texture Generation》：在研究欠缺領(lǐng)域——圖像 3D 紋理生成領(lǐng)域中，提出一種端到端的學(xué)習(xí)策略。

論文摘要：

近年來，對單張圖像中人體 3D 姿態(tài)和形狀估計的研究得到了廣泛關(guān)注。然而，在圖像 3D 紋理生成領(lǐng)域的研究卻相當(dāng)?shù)那啡薄ａ槍@個問題，本文提出一種端到端的學(xué)習(xí)策略，利用行人重識別的監(jiān)督信息，來解決圖像中人體紋理生成問題。該方法的核心思想是，利用輸入的圖像渲染圖像中行人紋理，并將行人重識別網(wǎng)絡(luò)作為一種感知標(biāo)準(zhǔn)，來最大化渲染圖像和輸入原圖像之間的相似性。本文在行人圖像上進行了大量的實驗，結(jié)果表明所提出的方法能夠從單張圖像輸入中生成紋理，其質(zhì)量明顯優(yōu)于其他方法所生成的紋理。此外，本文將此應(yīng)用擴展到其他方面，并探索所生成紋理的可使用性。

3D 點云

3、《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》：提出 Geo-CNN 模型，將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于 3D 點云數(shù)據(jù)局部區(qū)域中點的幾何結(jié)構(gòu)建模。

論文摘要：

得益于深度卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的近期的應(yīng)用和發(fā)展，許多研究人員將其直接用于 3D 點云的數(shù)據(jù)建模。一些研究已證明，卷積結(jié)構(gòu)對于點云數(shù)據(jù)的局部結(jié)構(gòu)建模是非常有效的，因此研究者將其用于層級特征中的局部點集建模的研究。然而，對于局部區(qū)域中點的幾何結(jié)構(gòu)建模研究的關(guān)注卻相當(dāng)有限。為了解決這個問題，本文提出一種 Geo-CNN 模型，將一個名為 GeoConv 的通用卷積式操作應(yīng)用于區(qū)域中的每個點及其局部鄰域。當(dāng)提取區(qū)域中心點與其相鄰點之間的邊緣特征時，該模型能夠捕獲點之間的局部幾何關(guān)系。具體來說，首先將邊緣特征的提取過程分解為三個正交基礎(chǔ)，接著基于邊緣向量和基礎(chǔ)向量之間的角度，聚合所提取的特征，通過層級特征的提取，能夠使得網(wǎng)絡(luò)特征提取過程中保留歐式空間點的幾何結(jié)構(gòu)。作為一種通用而高效的卷積操作，GeoConv 能夠輕松地將 3D 點云分析過程集成到多個應(yīng)用中，而以 GeoConv 為結(jié)構(gòu)的 Geo-CNN 模型在 ModelNet40 和 KITTI 數(shù)據(jù)集的點云數(shù)據(jù)建模任務(wù)上都實現(xiàn)了當(dāng)前最先進的性能。

場景文字檢測

4、《Shape Robust Text Detection with Progressive Scale Expansion Network》：提出 PSENet 模型，一種新穎的漸進式尺度可拓展網(wǎng)絡(luò)，針對場景文字檢測中任意形狀文本問題。此研究后續(xù)會開源，大家可以繼續(xù)關(guān)注。

論文摘要：

得益于深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展，場景文本檢測領(lǐng)域近來取得了快速發(fā)展。然而，對于其在工業(yè)界是的實際應(yīng)用而言，仍存在兩大挑戰(zhàn)：一方面，大多數(shù)現(xiàn)有的方法都需要采用四邊形的邊界框，這種邊界框在定位任意形狀的文字時的性能很差，精確度很低。另一方面，對于場景中兩個彼此接近、互相干擾的文本，現(xiàn)有技術(shù)可能會產(chǎn)生誤檢，結(jié)果會包含兩個實例。傳統(tǒng)的方法采用分段式的技術(shù)可以緩解四邊形邊界框的性能問題，但通常無法解決誤檢問題。因此，為了解決上述兩個問題，本文提出了一種新穎的漸進式尺度可擴展網(wǎng)絡(luò) (PSENet)，它可以精確魯棒地檢測場景中任意形狀的文本實例。具體地說，PSENet 模型能夠為每個文本實例生成不同比例的核 (kernel)，并將最小比例的 kernel 逐步擴展生成完整形狀比例的 kernel，以適應(yīng)不同大小的文本實例。此外，由于最小尺度的 kernel 之間存在較大的幾何邊距，因此 PASNet 能夠有效地分割場景中一些緊密的文本實例，從而更容易地使用分段方法來檢測任意形狀的文本實例。大量的實驗結(jié)果表明，PSENet 模型在 CTW1500，Total-Text，ICDAR 2015 和 ICDAR 2017 MLT等數(shù)據(jù)集上都能實現(xiàn)非常有效、魯棒的檢測性能。值得注意的是，在包含長曲線的 CTW1500 數(shù)據(jù)集上，PSENet 模型在 27 FPS 的速度下能夠?qū)崿F(xiàn)74.3％的F-measure，而最高的F-measure 可達(dá)82.2％，超過當(dāng)前最先進的方法 6.6%。

全景分割

5、《An End-to-end Network for Panoptic Segmentation》：在全景分割研究領(lǐng)域中，曠視提出了一種新穎的端到端的全景分割模型。

論文摘要：

全景分割，是需要為圖像中每個像素分配類別標(biāo)簽的同時，分割每個目標(biāo)實例的一種分割任務(wù)。這是一個具有挑戰(zhàn)性的研究領(lǐng)域，傳統(tǒng)的方法使用兩個獨立的模型但二者之間不共享目標(biāo)特征，這將導(dǎo)致模型實現(xiàn)的效率很低。此外，傳統(tǒng)方法通過一種啟發(fā)式方法來合成兩種模型的結(jié)果，在合并過程期間無法利用足夠的特征上下文信息，這就導(dǎo)致模型難以確定每個目標(biāo)實例之間的重疊關(guān)系。為了解決這些問題，本文提出了一種新穎的端到端全景分割模型，能夠有效地、高效地預(yù)測單個網(wǎng)絡(luò)中每個目標(biāo)實例及其分割結(jié)果。此外，還引入了一種新穎的空間排序模塊來處理所預(yù)測的實例之間的重疊關(guān)系問題。大量的實驗結(jié)果表明，所提出的方法能夠在 COCO Panoptic 基準(zhǔn)上取得了非常有前景的結(jié)果。

時空動作檢測

6、《TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection》：曠視在時空動作檢測研究領(lǐng)域針對時間維度問題提出了網(wǎng)絡(luò)——TACNet（上下文轉(zhuǎn)換感知網(wǎng)絡(luò)），改善時空動作檢測性能。

論文摘要：

當(dāng)前，時空動作檢測領(lǐng)域最先進的方法已經(jīng)取得了令人印象深刻的結(jié)果，但對于時間維度的檢測結(jié)果仍然不能令人滿意，其主要原因在于模型會將一些類似于真實行為的模糊狀態(tài)識別為目標(biāo)行為，即使是當(dāng)前性能最佳的網(wǎng)絡(luò)也是如此。因此，為了解決這個問題，本文將這些模糊狀態(tài)樣本定義為“轉(zhuǎn)換狀態(tài) (transitional states)”，并提出一種上下文轉(zhuǎn)換感知網(wǎng)絡(luò) (TACNet) 來識別這種轉(zhuǎn)換狀態(tài)。TACNet 網(wǎng)絡(luò)主要包括兩個關(guān)鍵部分，即時間上下文檢測器和轉(zhuǎn)換感知分類器。其中，時間上下文檢測器可以通過構(gòu)造一個循環(huán)檢測器來提取具有恒定時間復(fù)雜度的長期上下文信息，而轉(zhuǎn)換感知分類器則是通過同時對行動和轉(zhuǎn)換狀態(tài)進行分類來進一步識別轉(zhuǎn)換狀態(tài)。因此，TACNet 模型可以顯著地改善時空動作檢測的性能，并在 UCF101-24 和 J-HMDB 數(shù)據(jù)集實現(xiàn)非常有效的檢測性能。其中， TACNe 在 JHMDB 數(shù)據(jù)集上取得了非常有競爭力的表現(xiàn)，并在 frame-mAP 和 video-mAP 兩個指標(biāo)上明顯優(yōu)于 UCF101-24 數(shù)據(jù)集中最先進的方法。

圖像超分辨率

7、《Zoom in with Meta-SR: A Magnification-Arbitrary Network for Super-Resolution》：近年來，圖像超分辨率研究已經(jīng)取得了很大的成功，但在這篇論文中，曠視將研究重點放在其一個被忽視的方向：任意縮放因子的超分辨率研究。論文中對此問題提出了一個新方法—— Meta-SR（任意放大網(wǎng)絡(luò)）

論文摘要：

得益于深度卷積神經(jīng)網(wǎng)絡(luò) (DCNNs) 的發(fā)展，近期圖像超分辨率領(lǐng)域的研究取得了巨大的成功。然而，對于任意縮放因子的超分辨率研究一直以來都是被忽視的一個方向。先前的研究中，大多數(shù)都是將不同縮放因子的超分辨率視為獨立任務(wù)，且只考慮幾種整數(shù)因子的情況，為每個因子訓(xùn)練特定的模型，這嚴(yán)重影響了整體模型的效率。因此，為了解決這個問題，本文提出了一種稱為 Meta-SR 的新方法。具體來說，首先通過單一模型來求解任意縮放因子 (包括非整數(shù)比例因子) 的超分辨率情況。接著，在 Meta-SR 中，使用 Meta-upscale 模塊替代傳統(tǒng)方法中的 upscale 模塊。對于任意縮放因子，Meta-upscale 模塊通過將縮放因子作為輸入來動態(tài)地預(yù)測每個 upscale 濾波器的權(quán)重，并使用這些權(quán)重來生成其他任意大小的高分辨率圖像 (HR)。而對于任意的低分辨率圖像，Meta-SR 可以通過單個模型，以任意縮放因子進行連續(xù)地放大。最后，對于所提出的方法，在一些廣泛使用的基準(zhǔn)數(shù)據(jù)集上進行性能評估，結(jié)果展示了 Meta-Upscale 的有效性和優(yōu)越性。

目標(biāo)檢測

8、《Bounding Box Regression with Uncertainty for Accurate Object Detection》：對目標(biāo)檢測中不確定性邊界框問題，在這篇論文中提出了一中新的邊界框回歸損失算法，提高了各種檢測體系的目標(biāo)定位精度。

該研究相關(guān)的代碼和模型已開源，地址：

https://github.com/yihui-he/KL-Loss

論文摘要：

諸如 MS-COCO 在內(nèi)大規(guī)模目標(biāo)檢測數(shù)據(jù)集，都旨在盡可能清楚地定義目標(biāo)真實的邊界框標(biāo)注。然而，事實上在標(biāo)注邊界框時經(jīng)常會產(chǎn)生歧義。因此，為了解決這個問題，本文提出了一種新的邊界框回歸損失 (bounding box regression loss) 算法，用于學(xué)習(xí)邊界框變換和局部方差。這種損失算法提高了各種檢測體系的目標(biāo)定位精度，且?guī)缀醪恍枰~外的計算成本。此外，該算法的另一大優(yōu)勢在于它能夠?qū)W習(xí)目標(biāo)的定位方差，這允許模型在非最大抑制 (NMS) 計算階段合并相鄰的邊界框，以便進一步改善了定位的性能。在 MS-COCO 數(shù)據(jù)集上，該損失算法能夠?qū)?Faster R-CNN (VGG-16) 的平均精度 AP 從23.6％提高到29.1％。更重要的是，對于 Mask R-CNN (ResNet-50-FPN)，該算法將 AP 和 AP 90 分別提高了1.8％和6.2％，這明顯優(yōu)于當(dāng)前最先進的邊界框細(xì)化 (bounding box refinement) 方法。

語義分割

9、《DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation》：今年唉語義分割研究方向，曠視提出一種非常有效的 CNN 架構(gòu)——DFANet，一種在有限資源下，用于實時語義分割的深度特征聚合算法。

論文摘要：

本文提出一種在有限資源條件下的語義分割模型 DFANet，這是一種非常有效的 CNN 架構(gòu)。DFANet 從單個輕量級骨干網(wǎng)絡(luò)開始，分別通過子網(wǎng)和子級聯(lián)的方式聚合判別性特征?；诙喑叨忍卣鞯膫鞑ィ珼FANet 網(wǎng)絡(luò)在獲得足夠感受野的同時下，大大減少了模型的參數(shù)量，提高了模型的學(xué)習(xí)能力，并在分割速度和分割性能之間取得了很好的平衡。通過在 Cityscapes 和 CamVid 數(shù)據(jù)集上的大量實驗評估，驗證了 DFANet 網(wǎng)絡(luò)的優(yōu)越性能：相比于最先進的實時語義分割方法，DFANet 網(wǎng)絡(luò)的分割速度快了3倍，而只使用七分之一的 FLOP，同時保持相當(dāng)?shù)姆指顪?zhǔn)確性。具體來說，在一塊NVIDIA Titan X卡上，對于1024×1024輸入，DFANet 在 Cityscapes 測試數(shù)據(jù)集上實現(xiàn)了71％的平均 IOU (Mean IOU)，分割速度為170FPS，而僅有3.4 GFLOP。同時，當(dāng)使用較小的骨干模型時，它能夠取得67％的平均IOU (Mean IOU)，250 FPS 的分割速度和2.1 GFLOP。

多標(biāo)簽圖像識別

10、《Multi-Label Image Recognition with graph convolutional Networks》：為了構(gòu)建圖像中同時出現(xiàn)的不同目標(biāo)標(biāo)簽的依賴關(guān)系模型，來提高模型的識別性能，在這篇論文中提出了一種基于圖卷積網(wǎng)絡(luò)模型——GCN。

論文摘要：

多標(biāo)簽的圖像識別任務(wù)，旨在預(yù)測圖像中所有存在的目標(biāo)標(biāo)簽。由于圖像中的目標(biāo)通常是同時出現(xiàn)的，因此理想狀態(tài)下，我們希望對不同目標(biāo)標(biāo)簽的依賴性進行建模以便提高模型的識別性能。為了捕獲和利用這種重要的依賴關(guān)系，本文提出了一種基于圖卷積網(wǎng)絡(luò)的模型 (GCN)。該模型能夠在目標(biāo)標(biāo)簽之間構(gòu)建有向圖，其中每個節(jié)點 (標(biāo)簽) 由詞嵌入 (word embedding) 表示，而 GCN 網(wǎng)絡(luò)用于將該標(biāo)簽圖映射到一組相互依賴的目標(biāo)分類器。這些分類器使用另一個子網(wǎng)絡(luò)提取的圖像描述器，實現(xiàn)整個網(wǎng)絡(luò)的端到端訓(xùn)練。此外，通過設(shè)計不同類型的相關(guān)矩陣并將它們集成到圖卷積網(wǎng)絡(luò)中訓(xùn)練，來深入研究圖構(gòu)建問題。通過在兩個多標(biāo)簽圖像識別數(shù)據(jù)集基準(zhǔn)的試驗評估，結(jié)果表明所提出的方法明顯優(yōu)于當(dāng)前最先進的方法。此外，可視化分析結(jié)果表明圖卷積網(wǎng)絡(luò)模型所學(xué)習(xí)的分類器能夠保持有意義的語義結(jié)構(gòu)信息。

關(guān)于提高 GIF 視覺質(zhì)量

11、《GIF2Video: Color Dequantization and Temporal Interpolation of GIF images》：GIF 圖像中視覺偽像問題如何解決？這篇論文中提出一種 GIF2Video 方法，通過顏色去量化 CNN 模型和時序插值算法 SuperSlomo 網(wǎng)絡(luò)，來提高自然條件下 GIF 視覺質(zhì)量。

論文摘要：

GIF 是一種高度可移植的圖形格式，在網(wǎng)絡(luò)上無處不在。盡管 GIF 圖像的尺寸小，但它們通常包含一些視覺偽像，如平面顏色區(qū)域，偽輪廓，顏色便移和點狀圖案。本文提出一種 GIF2Video 方法，這是第一種基于學(xué)習(xí)來提高自然條件下 GIF 視覺質(zhì)量的方法。具體來說，該方法通過恢復(fù) GIF 創(chuàng)建時三個步驟中丟失的信息來實現(xiàn) GIF 的恢復(fù)任務(wù)：即幀采樣，顏色量化和顏色抖動。首先，提出了一種用于顏色去量化的新型 CNN 架構(gòu)，它是一種多步驟的顏色校正組合架構(gòu)，并設(shè)計一種綜合的損失函數(shù)用于衡量大量化誤差。接著，采用 SuperSlomo 網(wǎng)絡(luò)對 GIF 幀進行時間插值。最后，在 GIF-Faces 和 GIF-Moments 兩個大型數(shù)據(jù)集上進行實驗評估，結(jié)果表明所提出的方法能夠顯著地提高 GIF 圖像的視覺質(zhì)量，并優(yōu)于基準(zhǔn)和當(dāng)前最先進的方法。

點云數(shù)據(jù)分析

12、《GeoNet: Deep Geodesic Networks for Point Cloud Analysis》：曠視在這篇論文中提出了 GeoNet 模型，這是第一個用于模擬點云數(shù)據(jù)表面結(jié)構(gòu)的深度學(xué)習(xí)方法。

論文摘要：

基于表面的測量拓?fù)淅碚摓槟繕?biāo)的語義分析和幾何建模研究提供了強有力的線索。但是，對于點云數(shù)據(jù)而言，這種關(guān)聯(lián)信息往往會丟失。因此，本文提出一種 GeoNet 模型，這是第一個用于模擬點云數(shù)據(jù)表面結(jié)構(gòu)的深度學(xué)習(xí)方法。此外，為了證明模型所學(xué)習(xí)的信息表示的適用性，本文進一步提出了一種融合方案，用于將 GeoNet 網(wǎng)絡(luò)與其他基線或骨干網(wǎng)絡(luò) (如 PU-Net 和 PointNet ++) 結(jié)合使用，用于點云數(shù)據(jù)的 down-stream 分析。大量的實驗結(jié)果表明，所提出的方法能夠在多個代表性的任務(wù) (這些任務(wù)受益于底層的表面拓?fù)湫畔⒌睦斫? 上改進當(dāng)前最先進方法的性能，包括點上采樣，正常估計，網(wǎng)格重建和非剛性形狀分類等。

室外場景深度估計

13、《DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR Data and Single Color Image》：這篇論文提出的深度學(xué)習(xí)架構(gòu)——DeepLiDAR 主要應(yīng)用與單色圖像和稀疏深度圖像的室外場景深度估計，實現(xiàn)端到端的圖像密集深度估計。

論文摘要：

本文提出一種深度學(xué)習(xí)架構(gòu)，用于為單色圖像和稀疏深度圖像中室外場景生成精確的密集深度估計。受室內(nèi)場景深度估計方法的啟發(fā)，所提出的網(wǎng)絡(luò)將曲面法線估計作為一種中間表示，實現(xiàn)端到端的圖像密集深度估計。具體來說，通過改進的編解碼器結(jié)構(gòu)，網(wǎng)絡(luò)能夠有效地融合密集的單色圖像和稀疏 LiDAR 數(shù)據(jù)的深度。為了解決室外場景的特定挑戰(zhàn)，該網(wǎng)絡(luò)還預(yù)測了一個置信掩模 (confidence mask)，用于處理由于遮擋而出現(xiàn)在前景邊界附近的混合 LiDAR 數(shù)據(jù)信號，并將單色圖像和曲面法線的估計結(jié)果與所學(xué)習(xí)的注意力映射圖相結(jié)合，以便提高深度估計的精度，這對于遠(yuǎn)距離的區(qū)域而言尤其重要。通過大量的實驗評估，結(jié)果表明所提出的模型能夠改進了 KITTI 數(shù)據(jù)集深度估計任務(wù)上最先進方法的性能。此外，通過消融研究進一步分析模型每個組件對最終估計性能的影響，結(jié)果表明模型具有良好的泛化能力和應(yīng)用前景，能夠推廣到稀疏度更高的室外或室內(nèi)場景。

緊湊、有效的深度學(xué)習(xí)模型

14、《C3AE: Exploring the Limits of Compact Model for Age Estimation》：全年曠視的論文中提出了 ShuffleNets 網(wǎng)絡(luò)，一種可應(yīng)用與移動端的輕量級模型，但是在減少參數(shù)數(shù)量的情況下，模型的表達(dá)能力肯定會受削弱影響。因此，在今年曠視的這篇論文中提出了這個緊湊而有效的深度學(xué)習(xí)模型——C3AE，一種基于級聯(lián)上下文信息的模型用于年齡估計問題。

論文摘要：

年齡估計是計算機視覺中一個經(jīng)典的學(xué)習(xí)問題。諸如 AlexNet，VggNet，GoogLeNet 和 ResNet 等更大更深的 CNN 模型已經(jīng)能夠取得很好的性能。然而，這些模型無法應(yīng)用于嵌入式/移動設(shè)備。最近所提出的 MobileNets 和 ShuffleNets 網(wǎng)絡(luò)主要是通過減少參數(shù)的數(shù)量來實現(xiàn)輕量級模型，以便應(yīng)用于移動端設(shè)備。然而，由于采用了深度可分的卷積，這些模型的表達(dá)能力被嚴(yán)重削弱。因此，針對這些問題，本文研究緊湊模型在小尺度圖像方面的局限性，并提出一種基于級聯(lián)上下文信息的年齡估計模型 C3AE，這是一種極其緊湊而有效深度學(xué)習(xí)模型。與 MobileNets/ShuffleNets 和 VggNet 等模型相比，C3AE 模型僅具有1/9和1/2000參數(shù)，同時實現(xiàn)了與其相當(dāng)?shù)男阅?。特別是，通過級聯(lián)模型能夠只使用兩點表征的信息來重新定義年齡估計問題。此外，為了充分利用人臉上下文信息，本文還提出了多分支的 CNN 網(wǎng)絡(luò)來聚合多尺度上下文信息。C3AE 模型在三個年齡估計數(shù)據(jù)集上取得了遠(yuǎn)超當(dāng)前最先進方法的性能表現(xiàn)，并證明這種緊湊模型的優(yōu)越性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4812

瀏覽量
103283
算法

算法

+關(guān)注

關(guān)注
23

文章
4706

瀏覽量
95157
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1094

瀏覽量
41156