一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CVPR 2018 上10篇最酷論文,渴望進(jìn)步的人都在看

8g3K_AI_Thinker ? 來源:電子發(fā)燒友網(wǎng) ? 作者:工程師譚軍 ? 2018-07-09 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

▌前言

作為計算機(jī)視覺領(lǐng)域的頂級會議,2018年的計算機(jī)視覺和模式識別會議(CVPR) 上周在美國鹽湖城舉行。今年的 CVPR共收到3300份來稿并接收了其中的979份。超過6500人參加了今年的會議,這間容納6500人的房間座無虛席,堪稱是一屆史詩般的盛會:

每年的 CVPR都會吸引眾多優(yōu)秀的人才和他們最新的研究成果,總可以看到學(xué)到新的東西。當(dāng)然還有那些發(fā)表了最新并具有突破性成果的論文,為該領(lǐng)域帶來很棒的新知識。這些論文經(jīng)常在計算機(jī)視覺的許多子領(lǐng)域形成最新的技術(shù)。

最近,我們看到了一些開箱即用且富有創(chuàng)意的論文!隨著最近深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的突破性進(jìn)展,我們?nèi)匀辉谔剿鞑l(fā)現(xiàn)一切未知的可能性。許多論文展示了深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域中的全新應(yīng)用。它們可能不是最根本的開創(chuàng)性作品,但就它們從新穎有趣的角度呈現(xiàn)出全新的想法,為相關(guān)領(lǐng)域提供了創(chuàng)造性和啟發(fā)性的視角??偠灾?,這些都是非??岬淖髌罚?/p>

在這里,我將展示我認(rèn)為在本屆 CVPR上最酷的10篇論文。我們將看到最近使用深度網(wǎng)絡(luò)實現(xiàn)的一些新應(yīng)用,以及如何進(jìn)一步使用它們。你可以在閱讀過程中根據(jù)自己的喜好選擇性地進(jìn)行閱讀。讓我們開始吧!

▌Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization(用合成數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò):通過領(lǐng)域隨機(jī)化來彌合現(xiàn)實差距)

這篇論文出自Nvidia團(tuán)隊的研究,使用合成數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)。 他們?yōu)樘摶靡?Unreal Engine 4) 創(chuàng)建了一個插件用于生成合成的訓(xùn)練數(shù)據(jù)。這項研究的關(guān)鍵在于他們對訓(xùn)練數(shù)據(jù)進(jìn)行了隨機(jī)化,使其能夠包含多種變量,包括:

目標(biāo)的數(shù)量和類型

干擾物的數(shù)量,類型,顏色和尺度

感興趣物體的紋理特征及圖片的背景

虛擬攝像機(jī)相對于場景的位置

相機(jī)相對于場景的角度

光點的數(shù)量和位置

他們展示了一些非常有前途的實驗結(jié)果,證明了合成數(shù)據(jù)預(yù)訓(xùn)練的有效性,這是先前研究從未實現(xiàn)過的結(jié)果。如果你之前并不了解這個重要知識的話,那么這項研究將會啟發(fā)你如何生成并使用合成數(shù)據(jù)。

▌WESPE: Weakly Supervised Photo Enhancer for Digital?Cameras(WESPE:用于數(shù)碼相機(jī)的弱監(jiān)督照片增強器)

這項研究通過訓(xùn)練生成對抗網(wǎng)絡(luò)(GAN) 來從美學(xué)上自動化增強圖片。該研究最酷的地方在于以一種弱監(jiān)督的方式:你不需要輸入-輸出的圖像對。訓(xùn)練網(wǎng)絡(luò)時,你只需要一組“好看”的圖像(用于輸出基礎(chǔ)事實) 和一組想要增強的“不好看”的圖像(用于輸入圖像)。然后,通過訓(xùn)練GAN產(chǎn)生輸入圖像的增強版本,通常所生成的圖像會極大地增強原圖像的顏色和對比度。

由于不需要精確的圖像對,因而你能夠快捷方便地使用這個圖像增強器。我喜歡這項研究的原因主要是因為它是一種弱監(jiān)督的方法。雖然我們離無監(jiān)督學(xué)習(xí)似乎還很遙遠(yuǎn),但對計算機(jī)視覺的許多子領(lǐng)域而言,弱監(jiān)督學(xué)習(xí)似乎是一個充滿希望且值得研究的方向。

▌Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++(用Polygon-RNN ++對圖像分割數(shù)據(jù)集進(jìn)行高效地交互式標(biāo)注)

深度神經(jīng)網(wǎng)絡(luò)之所以能夠表現(xiàn)出如此強大性能的主要原因之一是大型且完全帶標(biāo)注的可用的數(shù)據(jù)集。然而,對于許多計算機(jī)視覺任務(wù)而言,這樣的數(shù)據(jù)既費時又昂貴。特別對于圖像分割任務(wù)而言,我們需要對圖像中的每個像素進(jìn)行類別標(biāo)注,你可以想象其中的困難性有多大!

Polygon-RNN ++這項研究允許研究者只需在圖像中每個目標(biāo)周圍設(shè)置粗糙的多邊形點,然后該網(wǎng)絡(luò)能夠自動生成圖像分割所需的標(biāo)注信息!本文研究表明這種方法能夠在實際應(yīng)用中很好地推廣,并可以用來為分段任務(wù)創(chuàng)建快速簡便的數(shù)據(jù)標(biāo)注!

▌Creating Capsule Wardrobes from Fashion?Images

(從時尚配圖中創(chuàng)造自己的衣柜)

“嗯,我今天應(yīng)該穿什么?”如果有人能夠每天早上為你解決這個問題,那將再好不過了。

本文研究中,作者設(shè)計了一種模型,基于給定的候選服裝和配件清單,模型通過收集一組最小的項目集,提供最全面的服裝混合搭配的方案。研究中模型使用目標(biāo)函數(shù)進(jìn)行訓(xùn)練,這些目標(biāo)函數(shù)旨在捕獲視覺兼容性,多功能性及特定用戶的偏好等關(guān)鍵要素。有了這種衣柜 (Capsule Wardrobes),你可以輕松從衣櫥中挑選最佳的服裝搭配。

▌Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation (Super SloMo:視頻插值中多個中間幀的高質(zhì)量估計)

你曾經(jīng)是否想過以超慢的動作拍攝超級酷炫的東西呢?Nvdia的這項研究 Super SloMo就能幫你實現(xiàn)!研究中他們使用 CNN估計視頻的中間幀,并能將標(biāo)準(zhǔn)的30fps視頻轉(zhuǎn)換為240fps的慢動作!該模型估計視頻中間幀之間的光流信息,并在這些信息中間插入視頻幀,使慢動作的視頻看起來也能清晰銳利。

▌Who Let The Dogs Out? Modeling Dog Behavior From Visual?Data(用視覺數(shù)據(jù)構(gòu)建狗的行為模型)

這可能是有史以來最酷的研究論文!這項研究的想法是試圖模擬狗的思想和行為。研究人員將許多傳感器連接到狗的四肢以收集其運動和行為數(shù)據(jù);。此外,他們還在狗的頭部安裝一個攝像頭,以便從狗的視角獲取相應(yīng)的運動信息。然后,將一組CNN特征提取器用于從視頻幀獲取圖像特征,并將其與傳感器數(shù)據(jù)一起傳遞給一組LSTM模型,以便學(xué)習(xí)并預(yù)測狗的動作和行為。這是一項非常新穎而富有創(chuàng)造性的應(yīng)用研究,其整體的任務(wù)框架及獨特的執(zhí)行方式都是本文的亮點!希望這項研究能夠為我們未來收集數(shù)據(jù)和應(yīng)用深度學(xué)習(xí)技術(shù)的方式帶來更多的創(chuàng)造力。

▌Learning to Segment Every?Thing(學(xué)習(xí)分割一切)

在過去的幾年里,何凱明團(tuán)隊 (以前在微軟研究院,現(xiàn)就職于 Facebook AI Research) 提出了許多重大的計算機(jī)視覺研究成果。他們的研究最棒之處在于將創(chuàng)造力和簡單性相結(jié)合,諸如將 ResNets和Mask R-CNN相結(jié)合的研究,這些都不是最瘋狂或最復(fù)雜的研究思路,但是它們簡單易行,并在實踐中非常有效。

該團(tuán)隊最新的研究 Learning to Segment Every Thing是 Mask R-CNN研究的擴(kuò)展,它使模型準(zhǔn)確地分割訓(xùn)練期間未出現(xiàn)的類別目標(biāo)!這對于獲取快速且廉價的分割數(shù)據(jù)標(biāo)注是非常有用的。事實上,該研究能夠獲得一些未知目標(biāo)的基準(zhǔn)分割效果(baseline segment),這對于在自然條件中部署這樣的分割模型來說是至關(guān)重要的,因為在這樣的環(huán)境下可能存在許多未知的目標(biāo)??偟膩碚f,這絕對是我們思考如何充分利用深層神經(jīng)網(wǎng)絡(luò)模型的正確方向。

▌Soccer on Your?Tabletop(桌上足球)

本文的研究是在FIFA世界杯開幕時正式發(fā)表的,理應(yīng)獲得最佳時機(jī)獎!這的確是CVPR上在計算機(jī)視覺領(lǐng)域的“更酷”應(yīng)用之一。簡而言之,作者訓(xùn)練了一個模型,在給定足球比賽視頻的情況下,該模型能夠輸出相應(yīng)視頻的動態(tài)3D重建,這意味著你可以利用增強現(xiàn)實技術(shù)在任何地方查看它!

本文最大的亮點是結(jié)合使用許多不同類型的信息。使用視頻比賽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),從而相當(dāng)容易地提取3D網(wǎng)格信息。在測試時,提取運動員的邊界框,姿勢及跨越多個幀的運動軌跡以便分割運動員。接著你可以輕松地將這些3D片段投射到任何平面上。在這種情況下,你可以通過制作虛擬的足球場,以便在 AR條件下觀看的足球比賽!在我看來,這是一種使用合成數(shù)據(jù)進(jìn)行訓(xùn)練的方法。無論如何它都是一個有趣的應(yīng)用程序!

▌LayoutNet: Reconstructing the 3D Room Layout from a Single RGBImage(LayoutNet:從單個RGB圖像重建3D房間布局)

這是一個計算機(jī)視覺的應(yīng)用程序,我們可能曾經(jīng)想過:使用相機(jī)拍攝某些東西,然后用數(shù)字3D技術(shù)重建它。這也正是本文研究的目的,特別是重建 3D房間布局。研究人員使用全景圖像作為網(wǎng)絡(luò)的輸入,以獲得房間的完整視圖。網(wǎng)絡(luò)的輸出是3D重建后的房間布局,具有相當(dāng)高的準(zhǔn)確性!該模型足夠強大,可以推廣到不同形狀、包含許多不同家具的房間。這是一個有趣而好玩、又不需要投入太多研究人員就能實現(xiàn)的應(yīng)用程序。

▌Learning Transferable Architectures for Scalable Image Recognition (學(xué)習(xí)可遷移的結(jié)構(gòu)用于可擴(kuò)展的圖像識別任務(wù))

最后要介紹的是一項許多人都認(rèn)為是深度學(xué)習(xí)未來的研究:神經(jīng)架構(gòu)搜索(NAS)。NAS背后的基本思想是我們可以使用另一個網(wǎng)絡(luò)來“搜索”最佳的模型結(jié)構(gòu),而不需要手動地設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)構(gòu)搜索過程是基于獎勵函數(shù)進(jìn)行的,通過獎勵模型以使其在驗證數(shù)據(jù)集上有良好的表現(xiàn)。此外,作者在論文中表明,這種模型結(jié)構(gòu)比起手動設(shè)計的模型能夠獲得更高的精度。這將是未來巨大的研究方向,特別是對于設(shè)計特定的應(yīng)用程序而言。因為我們真正關(guān)注的是設(shè)計好的NAS算法,而不是為我們特定的應(yīng)用設(shè)計特定的網(wǎng)絡(luò)。精心設(shè)計的NAS算法將足夠靈活,并能夠為任何任務(wù)找到良好的網(wǎng)絡(luò)結(jié)構(gòu)。

▌結(jié)束語

希望你能從中學(xué)到一些新的、有用的東西,甚至能夠為你自己的研究與工作找到一些新的想法!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2959

    瀏覽量

    110834
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122825
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    354

    瀏覽量

    22749

原文標(biāo)題:CVPR 2018 上10篇最酷論文,圈兒里最Cool的人都在看

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    格靈深瞳六論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機(jī)視覺國際大會)公布論文錄用結(jié)果,格靈深瞳團(tuán)隊共有6論文入選。
    的頭像 發(fā)表于 07-07 18:23 ?484次閱讀

    理想汽車八論文入選ICCV 2025

    近日,ICCV 2025(國際計算機(jī)視覺大會)公布論文錄用結(jié)果,理想汽車共有8論文入選,其中5來自自動駕駛團(tuán)隊,3來自基座模型團(tuán)隊。I
    的頭像 發(fā)表于 07-03 13:58 ?296次閱讀

    傳音多媒體團(tuán)隊攬獲CVPR NTIRE 2025兩項挑戰(zhàn)賽冠亞軍

    近日,在計算機(jī)視覺領(lǐng)域最具影響力的國際競賽 CVPR NTIRE 2025中,傳音多媒體團(tuán)隊與上海交通大學(xué)圖像所MediaLab聯(lián)合團(tuán)隊分別斬獲 高效超分辨率挑戰(zhàn)賽(NTIRE 2025
    的頭像 發(fā)表于 06-24 16:08 ?1035次閱讀
    傳音多媒體團(tuán)隊攬獲<b class='flag-5'>CVPR</b> NTIRE 2025兩項挑戰(zhàn)賽冠亞軍

    NVIDIA榮獲CVPR 2025輔助駕駛國際挑戰(zhàn)賽冠軍

    NVIDIA 在本周美國田納西州舉辦的國際計算機(jī)視覺與模式識別會議(CVPR榮獲“端到端輔助駕駛”賽道冠軍。這一消息是在“自主系統(tǒng)具身智能研討會”宣布的。
    的頭像 發(fā)表于 06-16 14:44 ?452次閱讀

    后摩智能四論文入選三大國際頂會

    2025 年上半年,繼年初被 AAAI、ICLR、DAC 三大國際頂會收錄 5 論文后,后摩智能近期又有 4 論文入選CVPR、ICML
    的頭像 發(fā)表于 05-29 15:37 ?383次閱讀

    云知聲四論文入選自然語言處理頂會ACL 2025

    結(jié)果正式公布。云知聲在此次國際學(xué)術(shù)盛會中表現(xiàn)卓越,共有4論文被接收,其中包括2主會論文(Main Paper)和2Findings。入
    的頭像 發(fā)表于 05-26 14:15 ?584次閱讀
    云知聲四<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選自然語言處理頂會ACL 2025

    老板必修課:如何用NotebookLM 在上下班路上吃透一科技論文?

    常必要的,這有助于我們理解技術(shù)邊界,更好地定義產(chǎn)品并做出更精準(zhǔn)的投資決策。 一,使用NotebookLM,隨身解讀科技論文 我經(jīng)常使用的解讀科技論文的工具是Notebook,只需要把科技論文丟給它,它即可以: 1. 自動生成的摘
    的頭像 發(fā)表于 05-07 16:13 ?249次閱讀
    老板必修課:如何用NotebookLM 在上下班路上吃透一<b class='flag-5'>篇</b>科技<b class='flag-5'>論文</b>?

    挑戰(zhàn)具身機(jī)器人協(xié)同操作新高度!地瓜機(jī)器人邀你共戰(zhàn)CVPR 2025雙臂協(xié)作機(jī)器人競賽

    引言2025年6月,全球計算機(jī)視覺與人工智能領(lǐng)域的頂級盛會——CVPR(IEEE/CVFConferenceonComputerVisionandPatternRecognition)將重磅亮相
    的頭像 發(fā)表于 04-11 05:30 ?747次閱讀
    挑戰(zhàn)具身機(jī)器人協(xié)同操作新高度!地瓜機(jī)器人邀你共戰(zhàn)<b class='flag-5'>CVPR</b> 2025雙臂協(xié)作機(jī)器人競賽

    美報告:中國芯片研究論文全球領(lǐng)先

    論文方面同樣表現(xiàn)出色。 報告數(shù)據(jù)顯示,2018年至2023年間,全球發(fā)布約47.5萬與芯片設(shè)計和制造相關(guān)的論文。其中34%的論文有來自中
    的頭像 發(fā)表于 03-05 14:32 ?1127次閱讀

    后摩智能5論文入選國際頂會

    2025年伊始,后摩智能在三大國際頂會(AAAI、ICLR、DAC)中斬獲佳績,共有5論文被收錄,覆蓋大語言模型(LLM)推理優(yōu)化、模型量化、硬件加速等前沿方向。
    的頭像 發(fā)表于 02-19 14:02 ?781次閱讀
    后摩智能5<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選國際頂會

    進(jìn)步電機(jī)實驗

    進(jìn)步電機(jī)實驗
    發(fā)表于 12-10 15:26 ?0次下載

    ADS1255無論輸入的電壓是多少伏,ADC采集到的數(shù)據(jù),基本低16位都在波動,為什么?

    硬件使用的是AIN0/AIN1,PGA沒有放大,無論輸入的電壓是多少伏,ADC采集到的數(shù)據(jù),基本低16位都在波動,這個是不是程序哪里設(shè)置不對啊
    發(fā)表于 12-09 06:15

    在macOS Sierra安裝Pro Tools 10

    在 macOS Sierra 安裝 Pro Tools 10?
    發(fā)表于 11-25 14:48 ?0次下載

    NVIDIA Research在ECCV 2024展示多項創(chuàng)新成果

    在米蘭舉行的歐洲計算機(jī)視覺國際會議 (ECCV) ,NVIDIA Research 展示了多項突破性的創(chuàng)新成果,共發(fā)表了 14 論文
    的頭像 發(fā)表于 11-19 15:07 ?775次閱讀

    地平線科研論文入選國際計算機(jī)視覺頂會ECCV 2024

    近日,地平線兩論文入選國際計算機(jī)視覺頂會ECCV 2024,自動駕駛算法技術(shù)再有新突破。
    的頭像 發(fā)表于 07-27 11:10 ?1472次閱讀
    地平線科研<b class='flag-5'>論文</b>入選國際計算機(jī)視覺頂會ECCV 2024