一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個(gè)痛點(diǎn)怎么解決?

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-10-08 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

悉尼大學(xué)教授、澳大利亞科學(xué)院院士、優(yōu)必選首席科學(xué)家陶大成博士指出,人類(lèi)具有感知、推理、學(xué)習(xí)和行為四個(gè)方面的智能AI的終極目標(biāo)就是讓機(jī)器具備和人類(lèi)一樣的智能。在9月20日的AI WORLD 2018 世界人工智能峰會(huì)上,陶大程博士介紹了他的團(tuán)隊(duì)在這四個(gè)方向上取得的重大進(jìn)展。

悉尼大學(xué)教授、澳大利亞科學(xué)院院士、優(yōu)必選人工智能首席科學(xué)家陶大程博士在9月20日的AI WORLD 2018世界人工智能峰會(huì)上發(fā)表《AI破曉:機(jī)遇與挑戰(zhàn)》的主題演講。

陶大程表示,人工智能的目標(biāo)是在機(jī)器上實(shí)現(xiàn)類(lèi)似人的智能。人有四個(gè)方面的智能:Perceiving、Learning、Reasoning和Behaving。他的演講圍繞這四個(gè)方面展開(kāi)。

Perceiving包含了很多方面:物體檢測(cè)、目標(biāo)跟蹤、場(chǎng)景分割、關(guān)鍵點(diǎn)檢測(cè)、人臉圖像分析等等。但是高性能perceiving還依賴(lài)于高質(zhì)量的數(shù)據(jù)輸入。如果輸入圖像或者視頻受到噪聲、湍流、模糊、霧、低分辨率等因素的影響,就需要提升數(shù)據(jù)質(zhì)量。

在learning方面,陶大程博士介紹了多視角學(xué)習(xí)、多標(biāo)簽學(xué)習(xí)、adversarial domain generalisation、tag disentangled GAN等等。尤其是遺傳對(duì)抗生成網(wǎng)絡(luò)(Evolutionary GAN)有效的解決了傳統(tǒng)GAN網(wǎng)絡(luò)學(xué)習(xí)的兩個(gè)痛點(diǎn):

(1)訓(xùn)練不穩(wěn)定性。

(2)模型塌縮。這個(gè)工作也被麻省理工學(xué)院技術(shù)評(píng)論(MIT Technology Review)評(píng)選為熱點(diǎn)論文(The Best of the Physics arXiv)。

另外受到信息論中數(shù)據(jù)處理不等式的啟發(fā),陶博士和他的學(xué)生們?cè)诶碚撋辖忉屃?a href="http://www.www27dydycom.cn/v/tag/448/" target="_blank">深度學(xué)習(xí)中兩個(gè)備受關(guān)注的問(wèn)題:(1)為什么模型復(fù)雜度非常高的深度神經(jīng)網(wǎng)絡(luò),不會(huì)發(fā)生過(guò)擬合?(2)深度神經(jīng)網(wǎng)絡(luò)是越深越好嗎?

最后,陶大程博士介紹了優(yōu)必選悉尼大學(xué)人工智能研究院在reasoning和behaving方面的一些進(jìn)展。他的團(tuán)隊(duì)最近在visual question answering(VQA,看圖回答問(wèn)題)和visual dialog(看圖對(duì)話)的國(guó)際比賽中都取得了非常不錯(cuò)的成績(jī)。

目前陶大程博士的團(tuán)隊(duì)努力在人形機(jī)器人上實(shí)現(xiàn)示教學(xué)習(xí)(imitation learning),希望不久的將來(lái)能夠?qū)崿F(xiàn):機(jī)器人通過(guò)攝像機(jī)來(lái)理解人的行為,模仿人的行為,并且最終有效的和人進(jìn)行互動(dòng)。

以下是新智元整理的陶大成教授的演講內(nèi)容:

非常感謝新智元邀請(qǐng)我來(lái)跟大家分享一下,過(guò)去這兩年我們?cè)谌斯ぶ悄茴I(lǐng)域里做的一些工作。

首先請(qǐng)大家看這張照片。我這里想問(wèn)大家一個(gè)問(wèn)題,這張照片中有多少人?回答這個(gè)問(wèn)題不難,但是要花很多時(shí)間。我們?nèi)绻粋€(gè)個(gè)人的去數(shù),那么大約用一個(gè)小時(shí)的時(shí)間,我們可以知道這里有差不多900多個(gè)人。

如果用我們的人臉檢測(cè)技術(shù),在有GPU顯卡的臺(tái)式機(jī)上,只用三秒鐘就可以得到差不多的結(jié)果。這看起來(lái)是個(gè)很簡(jiǎn)單的任務(wù),但對(duì)于計(jì)算機(jī)來(lái)說(shuō)并不總是那么一帆風(fēng)順。2017年,我們的算法大概能檢測(cè)七百多張人臉,然后到八百多個(gè),到現(xiàn)在九百多,接近人的效果。另外我們發(fā)現(xiàn),用計(jì)算機(jī)檢測(cè)到的人臉實(shí)際上還有助于人去發(fā)現(xiàn)一些人剛開(kāi)始沒(méi)有看到的人臉。這也從一特別的角度說(shuō)明了,人工智能能夠擴(kuò)展人的智能。

人工智能的目標(biāo):在機(jī)器上實(shí)現(xiàn)類(lèi)似人的智能

什么是人工智能?人工智能就是機(jī)器所展示出來(lái)的智能,所以可以叫做“機(jī)器智能”,以區(qū)別人所展現(xiàn)出來(lái)的智能。人有四個(gè)方面的智能:Perceiving、Learning、Reasoning、以及Behaving。人工智能的目標(biāo)就是讓機(jī)器實(shí)現(xiàn)、模擬人的智能。我們期待有一天,機(jī)器也能夠像人一樣去感知世界,去學(xué)習(xí)、推理,去做出相應(yīng)的一些反應(yīng)。因此,我們需要讓人工智能具有這四個(gè)方面的能力。

這個(gè)視頻展示了我們?cè)谌斯ぶ悄茴I(lǐng)域里面的一些核心技術(shù),包括目標(biāo)檢測(cè)、(單、多)目標(biāo)跟蹤、目標(biāo)分割、特征點(diǎn)檢測(cè)、人體姿態(tài)估計(jì)、表情分析、年齡估計(jì)、單攝像機(jī)深度估計(jì)等。

為什么今天大家都在談人工智能?因?yàn)槲覀冇写髷?shù)據(jù),有超強(qiáng)的計(jì)算服務(wù)器,因此相對(duì)于很久之前,我們現(xiàn)在有能力有效地去訓(xùn)練超大規(guī)模的模型。雖然很久之前,多層神經(jīng)網(wǎng)絡(luò)已經(jīng)出現(xiàn),但是受制于數(shù)據(jù)和計(jì)算能力,一直沒(méi)有能夠得到很好的推廣。更重要的是,我們目前有大量的來(lái)自產(chǎn)業(yè)界、學(xué)術(shù)界、以及政府部門(mén)的實(shí)際需求。這些真正促成了今天的人工智能的再一次爆發(fā)。產(chǎn)業(yè)界的迫切需求也極大地推動(dòng)了學(xué)術(shù)界對(duì)人工智能的投入。

今天,我講介紹一下我們?cè)趐erceiving(感知)、learning(學(xué)習(xí))、reasoning(推理)和 behaving(行為)四個(gè)方面的進(jìn)展。

感知任務(wù)基礎(chǔ):物體檢測(cè)與目標(biāo)跟蹤

物體檢測(cè)是perceiving中的一項(xiàng)基本任務(wù)。現(xiàn)有的兩階段目標(biāo)檢測(cè)器取得了非常好的效果。首先生成區(qū)域候選框,然后對(duì)這些候選框進(jìn)行調(diào)整。調(diào)整過(guò)程會(huì)更新后續(xù)框的坐標(biāo)并預(yù)測(cè)物體的類(lèi)別。但是,不準(zhǔn)確的候選框有可能會(huì)導(dǎo)致不正確的檢測(cè)結(jié)果。

為了解決這個(gè)問(wèn)題,我們提出了基于上下文的調(diào)整算法。具體的講,我們發(fā)現(xiàn)對(duì)于一個(gè)檢測(cè)框,它周?chē)臋z測(cè)框常常提供了對(duì)于要檢測(cè)物體的補(bǔ)充性信息。

因此,我們嘗試從周?chē)鷻z測(cè)框提取有用的上下文信息用來(lái)改進(jìn)現(xiàn)有的調(diào)整算法。在我們提出的方法里,我們會(huì)基于一個(gè)加權(quán)過(guò)程來(lái)融合提取出來(lái)的上下文信息。最后,利用融合后的上下文信息以及相應(yīng)的視覺(jué)特征,我們提出的基于上下文的候選框調(diào)整算法能實(shí)質(zhì)性地改進(jìn)現(xiàn)有的調(diào)整算法。

舉個(gè)例子,如圖所示,其中一個(gè)鶴的候選框都不是很理想:藍(lán)色、黃色、紅色三個(gè)框,每一個(gè)框都只包含了鶴的一部分信息。通過(guò)我們提出的基于上下文的候選框調(diào)整算法能有效的把包含鶴的不同的部分的候選框的信息整合起來(lái),形成一個(gè)完整的候選框。

有了完整的候選框,可以有效的提升檢測(cè)率。

目標(biāo)跟蹤是perceiving中的另一個(gè)非?;镜娜蝿?wù)。單目標(biāo)跟蹤的困難來(lái)自于物體在運(yùn)動(dòng)過(guò)程中,形態(tài)由于geometry/photometry、camera viewpoint和illumination的變化、以及部分遮擋會(huì)發(fā)生強(qiáng)烈的變化。多目標(biāo)跟蹤更為困難,除了單目標(biāo)跟蹤遇到的困難,還需要區(qū)分物體的數(shù)量,以及不同的id。

因此在非受控的環(huán)境中做長(zhǎng)序列的跟蹤非常困難。由于深度學(xué)習(xí)在目標(biāo)跟蹤中的使用,目前tracker的性能已經(jīng)得到了很大的提升。這主要是由于深度學(xué)習(xí)能夠有效的給出被跟蹤物體的本源表征,因此對(duì)于各種變化、遮擋都有很好的對(duì)抗能力。這個(gè)籃球球場(chǎng)中的多球員跟蹤就是很好的例子。

感知任務(wù)進(jìn)階:解決單目深度估計(jì)的病態(tài)問(wèn)題

單目深度估計(jì)是一個(gè)病態(tài)問(wèn)題,因此極具挑戰(zhàn)性。這個(gè)任務(wù)期望從單張場(chǎng)景圖中還原出像素級(jí)的深度值,且在3D場(chǎng)景幾何理解中扮演著關(guān)鍵角色。為什么這是一個(gè)病態(tài)問(wèn)題呢?舉個(gè)例子,假設(shè)三維空間中有一條線,然后我們可以把它投射到一個(gè)平面上。在投射的平面上,我們可以看到一條直線,但是我們無(wú)法確認(rèn),在原始的三維空間中,這條線是直線還是曲線?可是實(shí)際中,我們卻可以根據(jù)圖像的信息來(lái)估計(jì)深度信息。

比如這張圖中,人的身高在原始圖像中,大約是三厘米,但是你絕對(duì)不會(huì)認(rèn)為這個(gè)人的身高在三維實(shí)際空間中就是三里面。根據(jù)常識(shí),我們都知道,成年男子身高大概在175到180厘米左右。

根據(jù)簡(jiǎn)單的幾何變換,我們就能夠估計(jì)到這個(gè)人到攝像機(jī)的距離。圖像中還有很多的信息能夠幫助我們估計(jì)像素的深度信息,比如陰影、色彩的變化、layout、地面等等。關(guān)鍵的問(wèn)題是,我們應(yīng)該如何設(shè)計(jì)特征,然后用合理的統(tǒng)計(jì)模型來(lái)估計(jì)每一個(gè)像素的深度。

很久之前,研究人員用handcrafted特征結(jié)合MRF(馬爾科夫隨機(jī)場(chǎng))來(lái)完成這個(gè)任務(wù)。雖然傳統(tǒng)的MRF模型的預(yù)測(cè)效果不令人滿(mǎn)意,但是已經(jīng)存在的結(jié)果告訴大家這個(gè)問(wèn)題不是完全不可解決的。

最近的方法通過(guò)探索深度神經(jīng)網(wǎng)絡(luò)(DCNN)的多層次情景語(yǔ)義信息在這個(gè)問(wèn)題上取得了顯著的進(jìn)步。然而,這些方法預(yù)測(cè)出的深度值任然是非常不準(zhǔn)確的。

幾個(gè)可能的原因是:(1)由于深度分布的極端復(fù)雜性,在標(biāo)準(zhǔn)的回歸范例下學(xué)習(xí)深度分布是很困難的。(2)之前的工作在建模時(shí)都忽略了深度值之間的有序關(guān)系。(3)圖像級(jí)和多尺度信息目前還沒(méi)有被充分發(fā)掘。

受這些現(xiàn)象的啟發(fā),我們首先將深度估計(jì)問(wèn)題轉(zhuǎn)化到離散范例上來(lái)解決,其次通過(guò)提出一個(gè)順序回歸約束以此為深度預(yù)測(cè)引入排序機(jī)制,最后設(shè)計(jì)一個(gè)有效的多尺度深度網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)更好的情景語(yǔ)義信息學(xué)習(xí)。我們的模型(DORN)不僅在四個(gè)非常有挑戰(zhàn)的數(shù)據(jù)集(KITTI, ScanNet, Make3D 和 NYU Depth v2)上的效果遠(yuǎn)超同行,并且贏得了 Robust Vision Challenge 2018深度估計(jì)項(xiàng)目的第一名。

目標(biāo)姿勢(shì)估計(jì)與預(yù)測(cè)

預(yù)測(cè)一組語(yǔ)義關(guān)鍵點(diǎn),例如人類(lèi)身體關(guān)節(jié)或鳥(niǎo)類(lèi)部位,是圖像理解領(lǐng)域中重要的一項(xiàng)技術(shù) 。物體的關(guān)鍵點(diǎn)助于對(duì)齊對(duì)象并揭示它們之間的細(xì)微差別,同時(shí)也是計(jì)算機(jī)領(lǐng)會(huì)人類(lèi)姿態(tài)的一項(xiàng)關(guān)鍵技術(shù)。盡管這項(xiàng)技術(shù)近年來(lái)取得了重大進(jìn)展,但由于物體外觀差異大,姿勢(shì)變化和遮擋等情況,關(guān)鍵點(diǎn)預(yù)測(cè)仍然是一項(xiàng)重大挑戰(zhàn)。

目前基于CNN的關(guān)鍵點(diǎn)定位方法使用置信度圖監(jiān)督關(guān)鍵點(diǎn)檢測(cè)器, 但由于不同圖片中關(guān)鍵點(diǎn)的檢測(cè)難易程度不同,使用同等程度置信度圖可能會(huì)不利于關(guān)鍵點(diǎn)檢測(cè)器的學(xué)習(xí)。

為了解決關(guān)鍵點(diǎn)定位的魯棒性問(wèn)題,我們提出了一個(gè)粗細(xì)監(jiān)督網(wǎng)絡(luò)(CFN)深層卷積網(wǎng)絡(luò)的方法。該方法使用全卷積網(wǎng)絡(luò),利用幾個(gè)不同深度的分支來(lái)獲得分層特征表示。并根據(jù)其感受野不同,使用粗細(xì)不同的監(jiān)督信息。最后聯(lián)合所有分層特征信息來(lái)實(shí)現(xiàn)目標(biāo)關(guān)鍵點(diǎn)的精確定位。我們通過(guò)鳥(niǎo)類(lèi)部位定位和人體姿態(tài)估計(jì)的不同任務(wù)實(shí)驗(yàn)證明了該方法的有效性和通用性。

要想成功的完成剛才說(shuō)的這些perceiving的任務(wù),我們都需要假設(shè)我們所獲取到的圖像都是高質(zhì)量的。但是在實(shí)際問(wèn)題中,我們獲取到的圖象有可能會(huì)受到一些影響,導(dǎo)致數(shù)據(jù)質(zhì)量比較差。因此我們要解決圖像質(zhì)量評(píng)估,根據(jù)圖像質(zhì)量評(píng)估的結(jié)果,我們還要有有效的模型對(duì)圖像的質(zhì)量進(jìn)行提升,比如denoise、deblur、去除介質(zhì)湍流的影響、提升低分辨率圖像的分辨率、去霧,等等。

最近很多人都有一種感覺(jué):深度學(xué)習(xí)一統(tǒng)天下。要解決實(shí)際問(wèn)題,就是想辦法把不同的網(wǎng)絡(luò)層堆積起來(lái)、把網(wǎng)絡(luò)不斷加深,然后調(diào)參就好了。事實(shí)上,沒(méi)有這么簡(jiǎn)單。要有效的解決實(shí)際問(wèn)題,不僅我們要理解深度學(xué)習(xí)、知道該如何有效的調(diào)參,還有熟悉傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)、經(jīng)典的計(jì)算機(jī)視覺(jué),更要對(duì)問(wèn)題有深刻的理解,知道如何構(gòu)建有效的學(xué)習(xí)模型,當(dāng)然是深度的學(xué)習(xí)模型。

在learning這個(gè)方向上,我們也做了很多工作:快速矩陣分解、多視角學(xué)習(xí)、多任務(wù)學(xué)習(xí)、多標(biāo)簽學(xué)習(xí)、遷移學(xué)習(xí)、有標(biāo)簽噪聲的學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)、深度學(xué)習(xí)理論,等等。時(shí)間原因,我簡(jiǎn)單的介紹一下,我們最近在多視角學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)和深度學(xué)習(xí)理論上的一些工作。

多視角學(xué)習(xí):面向決策策略的“盲人摸象”

大家都知道盲人摸象的故事,實(shí)際上我們做決策的時(shí)候,跟盲人是一樣的,因?yàn)槲覀兯@取到的信息也是不完整的。那么我們?cè)谧鲇X(jué)得時(shí)候,也就是根據(jù)已有的信息作出的最優(yōu)策略。因此,對(duì)于同樣的事情,每一個(gè)人所作出的決定可能也不相同。

多視角學(xué)習(xí)對(duì)于現(xiàn)今的智能系統(tǒng)非常重要,這是因?yàn)橹悄芟到y(tǒng)中都安裝了大量的傳感器,比如,現(xiàn)在的無(wú)人車(chē)安裝了激光雷達(dá)、毫米波雷達(dá)、攝像機(jī)、IMU等等。每個(gè)傳感器都只能夠感知環(huán)境中的部分信息,那么我們就需要把不同的傳感的信息融合起來(lái),幫助我們做最后的決策。

假設(shè)存在一個(gè)oracle space,那么每個(gè)傳感器就可以被建模成對(duì)oracle space的一個(gè)線性或者非線形投影。如果我們有大量的傳感器,那么我們就能夠獲取大量的投影信息。我們可以證明,如果說(shuō)我們有足夠多的不同的投影信息,我們就能夠以非常高的概率去重構(gòu)這個(gè)oracle space。有了這個(gè)oracle space,我們就可以有效的做決策了。

請(qǐng)大家看一下最左邊的這張圖像。你第一眼看到了什么?大多說(shuō)人一定會(huì)說(shuō)是船。然后你還會(huì)注意到船上有人。對(duì)不對(duì)?這個(gè)現(xiàn)象提示我們,這樣的順序信息對(duì)于我們進(jìn)行多標(biāo)簽學(xué)習(xí)會(huì)非常有幫助。通過(guò)增強(qiáng)學(xué)習(xí),我們可以有效的學(xué)習(xí)這個(gè)順序,來(lái)提升增強(qiáng)學(xué)習(xí)的效率。

我們今天所面臨的學(xué)習(xí)問(wèn)題可能是這樣的一個(gè)情況:訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自不同的傳感器或者信息域。這就是domain generalization要解決的問(wèn)題。因?yàn)橛?xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自不同的域,我們就需要找尋一些特征:這些特征在訓(xùn)練數(shù)據(jù)上和測(cè)試數(shù)據(jù)上,對(duì)于完成我們的規(guī)定任務(wù)來(lái)說(shuō)都是有效的。

人可以很輕松的做到這一點(diǎn):我兒子3歲的時(shí)候,我給他看過(guò)長(zhǎng)頸鹿的卡通畫(huà)片。當(dāng)我?guī)?dòng)物園的時(shí)候,他可能很輕松的認(rèn)出真正的長(zhǎng)頸鹿??墒窃谶@之前,他從來(lái)沒(méi)有見(jiàn)過(guò)實(shí)際場(chǎng)景中的長(zhǎng)頸鹿。我們當(dāng)然希望計(jì)算機(jī)也具備類(lèi)似的能力。這里我們利用GAN網(wǎng)絡(luò)(對(duì)抗生成網(wǎng)絡(luò))能夠有效地學(xué)習(xí)這樣的不變特征。

我們提出了一個(gè)端到端的條件對(duì)抗域自適應(yīng)深度學(xué)習(xí)模型來(lái)學(xué)習(xí)域不變的特征,該模型同時(shí)衡量分布P(Y)和條件概率分布P(X|Y)的不變性。該網(wǎng)絡(luò)框架包括了四個(gè)部分。第一部分AlexNet用來(lái)學(xué)習(xí)域不變的特征。第二部分是圖像分類(lèi)網(wǎng)絡(luò),用來(lái)保證學(xué)習(xí)的特征具有良好的類(lèi)別區(qū)分性。

特征的域不變性質(zhì)利用類(lèi)別先驗(yàn)歸一化域分類(lèi)網(wǎng)絡(luò)和類(lèi)別條件域分類(lèi)網(wǎng)絡(luò)保證。其中類(lèi)別先驗(yàn)歸一化域分類(lèi)網(wǎng)絡(luò)用來(lái)匹配不同域的類(lèi)別先驗(yàn)歸一化分布,該網(wǎng)絡(luò)的主要目的是消除不同域之間的變化。其次,類(lèi)別條件域分類(lèi)網(wǎng)絡(luò)用來(lái)保證對(duì)于每一類(lèi)的分布匹配。這樣就能夠保證不同域的聯(lián)合概率分布是匹配的。在不同標(biāo)準(zhǔn)數(shù)據(jù)集上得到的實(shí)驗(yàn)結(jié)果證明了我們方法的有效性,并且要比現(xiàn)有方法有顯著的提高。

TD-GAN新框架,解決深度學(xué)習(xí)的可解釋性問(wèn)題

最近大家開(kāi)始關(guān)注學(xué)習(xí)的可解釋性。我們用GAN網(wǎng)絡(luò)可以學(xué)到特征來(lái)生成我們需要的數(shù)據(jù)。可是這些特征的含義是什么?我們并不清楚。

通過(guò)模仿人類(lèi)理解世界的方式,我們希望計(jì)算機(jī)能夠從這個(gè)復(fù)雜的世界中學(xué)習(xí)到抽象的概念,并根據(jù)這些概念創(chuàng)造新的東西。因此,我們需要計(jì)算機(jī)能夠從真實(shí)世界圖像中提取到可分解的特征,例如照片中人物的身份,拍攝角度,光照條件等等。這個(gè)就是tag disentanglement。有了可分解的特征,我們也能很好的解釋我們學(xué)習(xí)到的特征到底是什么物理含義。

我們提出了一個(gè)新的框架(TD-GAN),用于從單個(gè)輸入圖像中提取可分解的特征,并通過(guò)調(diào)整所學(xué)特征來(lái)重新渲染圖像。從某種程度上說(shuō),TD-GAN提供了一個(gè)可以理解現(xiàn)實(shí)世界中圖像的深度學(xué)習(xí)框架。

網(wǎng)絡(luò)所學(xué)習(xí)到的可分解的特征,實(shí)際上對(duì)應(yīng)于圖像中所描述主體的不同屬性。與人類(lèi)理解世界的方式相似,學(xué)習(xí)可分解的特征有助于機(jī)器解釋并重構(gòu)現(xiàn)實(shí)世界的圖像。因此,TD-GAN能夠根據(jù)用戶(hù)指定的信息合成高質(zhì)量的輸出圖像。

TD-GAN可應(yīng)用于(1)數(shù)據(jù)增強(qiáng),即通過(guò)合成新的圖像以用于其他深度學(xué)習(xí)算法的訓(xùn)練與測(cè)試,(2)生成給定對(duì)象連續(xù)姿態(tài)的圖像,以用于三維模型重建,以及(3)通過(guò)解析,概括來(lái)增強(qiáng)現(xiàn)有創(chuàng)作,并創(chuàng)造充滿(mǎn)想象力的新繪畫(huà)。

學(xué)習(xí)和操控現(xiàn)實(shí)世界數(shù)據(jù)(如圖像)的概率分布是統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的主要目標(biāo)之一。而近些年提出的深度生成對(duì)抗網(wǎng)絡(luò)(GAN)就是學(xué)習(xí)復(fù)雜數(shù)據(jù)概率概率分布的常用方法。

生成對(duì)抗網(wǎng)絡(luò)在許多生成相關(guān)的任務(wù)上取得了令人信服的表現(xiàn),例如圖像生成,圖像“翻譯”和風(fēng)格變換。但是,現(xiàn)有算法仍面臨許多訓(xùn)練困難。例如,大多數(shù)GAN需要仔細(xì)平衡生成器和判別器之間的能力。不適合的參數(shù)設(shè)置會(huì)降低GAN的性能,甚至難以產(chǎn)生任何合理的輸出。

在過(guò)去相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),很多研究人員都在研究不同的損失函數(shù)對(duì)于GAN的影響,(并且大家認(rèn)為不同的損失函數(shù)具有不同的優(yōu)勢(shì)和劣勢(shì),并可能導(dǎo)致不同的訓(xùn)練問(wèn)題)。因此很多不同的損失函數(shù)被引入到了GAN的訓(xùn)練學(xué)習(xí)中,比如minimax、least squares等等,來(lái)提升GAN的性能。

對(duì)于不同的任務(wù)、不同的數(shù)據(jù),不同的損失函數(shù)都取得了一定的效果。后來(lái)Google的研究人員通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),雖然不同的損失函數(shù)在不同的任務(wù)上或數(shù)據(jù)上或許會(huì)有不同的表現(xiàn),但是總體平均的效果卻相差不多。

這就告訴我們:現(xiàn)有生成對(duì)抗網(wǎng)絡(luò)的損失函數(shù)具有不同的優(yōu)點(diǎn)和缺點(diǎn),其預(yù)定義的對(duì)抗優(yōu)化策略可能導(dǎo)致生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練時(shí)的不穩(wěn)定。受自然演化啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)用于訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)的演化框架。在每次迭代期間,生成器經(jīng)歷不同的突變以產(chǎn)生多種后代。然后,給定當(dāng)前學(xué)習(xí)到的判別器,我們?cè)u(píng)估由更新的后代產(chǎn)生樣本的質(zhì)量和多樣性。最后,根據(jù)“適者生存”的原則,去除表現(xiàn)不佳的后代,保留剩余的表現(xiàn)良好的發(fā)生器并用于進(jìn)一步對(duì)抗訓(xùn)練。

基于的進(jìn)化模型的生成對(duì)抗網(wǎng)絡(luò)克服了個(gè)體對(duì)抗訓(xùn)練方法所存在的固有局限性,極大的穩(wěn)定了生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程病提升了生成效果。實(shí)驗(yàn)證明,所提出的E-GAN實(shí)現(xiàn)了令人信服的圖像生成性能,并減少了現(xiàn)有GAN固有的訓(xùn)練問(wèn)題。

這個(gè)工作,被MIT Technology Review評(píng)為熱點(diǎn)論文(one of “The Best of the PhysicsarXiv”)。

我們都知道,深度神經(jīng)網(wǎng)絡(luò)有一個(gè)特點(diǎn),就是參數(shù)空間大,模型復(fù)雜度高。傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)理論認(rèn)為,參數(shù)空間越大,模型復(fù)雜度越高,那么它對(duì)訓(xùn)練數(shù)據(jù)的擬合能力就越強(qiáng),但是泛化能力會(huì)變得越差。

Universal approximation theorem已經(jīng)證明了傳統(tǒng)的、有一個(gè)隱層的,多層感知機(jī)能夠擬合任何數(shù)據(jù)。舉個(gè)例子,這樣的模型完全可以擬合ImageNet這樣的數(shù)據(jù)。如果這樣,為什么我們還要不斷的增加網(wǎng)絡(luò)的深度,從最初的六層的AlexNet,到后來(lái)的152層的ResNet,甚至還有人用幾百層的網(wǎng)絡(luò)?因?yàn)槲覀兌贾?,這個(gè)單隱層的模型只有機(jī)會(huì)取得很小的訓(xùn)練誤差,但是泛化能力卻非常差。也就是說(shuō),測(cè)試效果并不好。

對(duì)于一個(gè)機(jī)器學(xué)習(xí)模型,如果它的訓(xùn)練誤差遠(yuǎn)小于測(cè)試誤差,那么它就發(fā)生了過(guò)擬合。在現(xiàn)有的統(tǒng)計(jì)學(xué)習(xí)理論框架下,對(duì)于神經(jīng)網(wǎng)絡(luò),有兩個(gè)尚未解決的問(wèn)題:首先,為什么模型復(fù)雜度非常高的深度神經(jīng)網(wǎng)絡(luò),不會(huì)發(fā)生過(guò)擬合?其次,深度神經(jīng)網(wǎng)絡(luò)是越深越好嗎?

利用信息論中的信息處理不等式,我們最近的工作得到了這樣一個(gè)有趣的結(jié)論:深度神經(jīng)網(wǎng)絡(luò)的泛化誤差會(huì)隨著層數(shù)的增加而指數(shù)衰減。這樣的結(jié)論告訴我們,在保證訓(xùn)練誤差足夠小的前提下,原則上網(wǎng)絡(luò)是越深越好。

推理與行為任務(wù):看圖對(duì)話與看圖問(wèn)答

關(guān)于reasoning和behaving,我們也做了一些工作。這里我提一下模仿學(xué)習(xí)、視覺(jué)問(wèn)題回答和視覺(jué)對(duì)話。

目前任何機(jī)器人主要的交互方式是通過(guò)設(shè)定的程序和參數(shù)。但是目前的機(jī)器人已經(jīng)安裝了攝像機(jī),那么我們希望不愿的將來(lái),機(jī)器人可以通過(guò)觀察人的動(dòng)作、模仿人的動(dòng)作,來(lái)達(dá)到學(xué)習(xí)的效果。

看圖問(wèn)答旨在以問(wèn)答的交互方式解決視覺(jué)內(nèi)容細(xì)粒度內(nèi)容理解。給定任意圖片,用戶(hù)針對(duì)圖像內(nèi)容使用自然語(yǔ)言進(jìn)行提問(wèn),算法提供準(zhǔn)確的自然語(yǔ)言的答案。一個(gè)典型的視覺(jué)問(wèn)答框架主要包含視覺(jué)特征細(xì)粒度表達(dá)、視覺(jué)注意力學(xué)習(xí)、多模態(tài)特征細(xì)粒度融合三個(gè)模塊。

針對(duì)三個(gè)關(guān)鍵模塊,我們都提出了更為有效的方式。這樣的模型對(duì)于機(jī)器人和人的交互,也是非常重要的。在視覺(jué)問(wèn)答的標(biāo)準(zhǔn)數(shù)據(jù)集VQA v2的實(shí)時(shí)排行榜,我們的方法取得了目前業(yè)界最好水平。

比看圖問(wèn)答更為復(fù)雜的一個(gè)相關(guān)任務(wù)是visual dialog(看圖對(duì)話)。與看圖問(wèn)答任務(wù)相比,看圖對(duì)話有兩個(gè)挑戰(zhàn):第一是對(duì)話歷史問(wèn)題,也就是上下文指代關(guān)系。第二是如何區(qū)分相似的答案。我們?cè)谧罱谋荣愔杏行У目紤]了這兩個(gè)問(wèn)題,并且取得了很好的效果。

最后,我請(qǐng)大家看一下這張照片?,F(xiàn)在,我不問(wèn)你這里有多少人了,而是問(wèn)你這些人在干什么。我想,你瞬間就可以告訴我,這些人在看比賽。這張照片和演講一開(kāi)始的那張照片的內(nèi)容是完全不一樣的。那張照片就是大家在照集體照。可是對(duì)于計(jì)算機(jī)來(lái)說(shuō),要回答出這兩張照片有什么不同還很困難,至少需要堆積大量的數(shù)據(jù)進(jìn)行訓(xùn)練,才能夠去回答這樣非常簡(jiǎn)單的問(wèn)題。

這樣的智能是我們需要的人工智能嗎?顯然不是,我們希望未來(lái)我們的計(jì)算機(jī)能夠在很多方面跟人具有共同的特性。因此,我們要讓計(jì)算機(jī)有更好的推理和行為能力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:悉尼大學(xué)陶大程:遺傳對(duì)抗生成網(wǎng)絡(luò)有效解決GAN兩大痛點(diǎn)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    解決芯片工程師的點(diǎn)

    是尖端創(chuàng)新的一年。創(chuàng)新而又體現(xiàn)未來(lái)感。 不過(guò)這個(gè)創(chuàng)新的未來(lái),來(lái)的不是那么容易。你可以問(wèn)任何一位現(xiàn)代芯片工程師。事實(shí)上,根據(jù)終端用戶(hù)的期望開(kāi)發(fā)出尖端創(chuàng)新設(shè)備的壓力,正在加劇兩個(gè)特殊的點(diǎn),而這
    發(fā)表于 11-07 16:38 ?3389次閱讀

    解決傳統(tǒng)雙槍直流充電樁的點(diǎn)問(wèn)題

    傳統(tǒng)充電樁對(duì)大巴車(chē)充電存在較多弊端,充電弓是如何應(yīng)用CANWiFi進(jìn)行無(wú)線通信升級(jí),進(jìn)而解決傳統(tǒng)雙槍直流充電樁的點(diǎn)問(wèn)題呢?
    的頭像 發(fā)表于 04-23 08:36 ?1.4w次閱讀

    智慧教育領(lǐng)域的點(diǎn)

    `VR的出現(xiàn)讓教育這一傳統(tǒng)行業(yè)變得豐富多彩。VR教育相較于傳統(tǒng)教育行業(yè),不僅能拓展學(xué)習(xí)的多維度空間、激發(fā)學(xué)生的學(xué)習(xí)想去,而且可以讓學(xué)生“身臨其境”地去體驗(yàn)交互。雖說(shuō)VR虛擬現(xiàn)實(shí)教育已逐
    發(fā)表于 11-22 10:04

    【洞幺邦】基于深度學(xué)習(xí)GAN應(yīng)用風(fēng)格遷移

    `? GAN 是什么?:Generative Adversarial Network我們可以這樣定義:“對(duì)抗生成網(wǎng)絡(luò)(GAN)是一種深度學(xué)習(xí)模型,模型通過(guò)框架中至少
    發(fā)表于 07-01 10:53

    模電學(xué)習(xí)兩個(gè)重點(diǎn)

    我來(lái)聊聊模電學(xué)習(xí)兩個(gè)重點(diǎn)     凡是學(xué)電的,總是避不開(kāi)模電。    上學(xué)時(shí)老師教的知識(shí),畢業(yè)時(shí)統(tǒng)統(tǒng)還給老師。畢業(yè)后又要從事產(chǎn)品設(shè)計(jì),《模
    發(fā)表于 06-08 18:04 ?3072次閱讀

    兩個(gè)可變零點(diǎn)、兩個(gè)固定極點(diǎn)的有源濾波器

    兩個(gè)可變零點(diǎn)、兩個(gè)固定極點(diǎn)的有源濾波器
    發(fā)表于 04-15 10:51 ?644次閱讀
    有<b class='flag-5'>兩個(gè)</b>可變零<b class='flag-5'>點(diǎn)</b>、<b class='flag-5'>兩個(gè)</b>固定極點(diǎn)的有源濾波器

    Proteus之兩個(gè)8×8點(diǎn)陣字符顯示樣式之一

    Proteus之兩個(gè)8×8點(diǎn)陣字符顯示樣式之一,很好的Proteus資料,快來(lái)下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩個(gè)8×8點(diǎn)陣字符顯示樣式之二

    Proteus之兩個(gè)8×8點(diǎn)陣字符顯示樣式之二,很好的Proteus資料,快來(lái)下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩兩個(gè)8×8點(diǎn)陣滾動(dòng)顯示

    Proteus之兩兩個(gè)8×8點(diǎn)陣滾動(dòng)顯示,很好的Proteus資料,快來(lái)下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩個(gè)16×16點(diǎn)陣漢字顯示

    Proteus之兩個(gè)16×16點(diǎn)陣漢字顯示,很好的Proteus資料,快來(lái)下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    Proteus之兩個(gè)16×16點(diǎn)陣漢字分批顯示

    Proteus之兩個(gè)16×16點(diǎn)陣漢字分批顯示,很好的Proteus資料,快來(lái)下載不學(xué)習(xí)吧。
    發(fā)表于 04-18 17:11 ?0次下載

    卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)臉部關(guān)鍵點(diǎn)的教程之兩個(gè)重要參數(shù):學(xué)習(xí)率,學(xué)習(xí)動(dòng)量

    上個(gè)模型令人討厭的地方是光訓(xùn)練就花了一個(gè)小時(shí)的時(shí)間,等結(jié)果并不是一個(gè)令人心情愉快的事情。這一部分,我們將討論將兩個(gè)技巧結(jié)合讓網(wǎng)絡(luò)訓(xùn)練的更快! 直覺(jué)上的解決辦法是,開(kāi)始訓(xùn)練時(shí)取一
    發(fā)表于 11-16 12:04 ?4820次閱讀
    卷積神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>檢測(cè)臉部關(guān)鍵<b class='flag-5'>點(diǎn)</b>的教程之<b class='flag-5'>兩個(gè)</b>重要參數(shù):<b class='flag-5'>學(xué)習(xí)</b>率,<b class='flag-5'>學(xué)習(xí)</b>動(dòng)量

    兩個(gè)指標(biāo)讓GAN訓(xùn)練更有效

    現(xiàn)有指標(biāo)不足以評(píng)估 GAN 模型,因此引入了兩個(gè)基于圖像分類(lèi)的指標(biāo)GAN-train 和 GAN-test,分別對(duì)應(yīng) GAN 的召回率(多樣
    發(fā)表于 09-12 00:25 ?1694次閱讀

    兩個(gè)LED和兩個(gè)按鈕的使用

    電子發(fā)燒友網(wǎng)站提供《兩個(gè)LED和兩個(gè)按鈕的使用.zip》資料免費(fèi)下載
    發(fā)表于 01-30 16:04 ?1次下載
    <b class='flag-5'>兩個(gè)</b>LED和<b class='flag-5'>兩個(gè)</b>按鈕的使用

    如何設(shè)置兩個(gè)路由器使用同一個(gè)Wi-Fi網(wǎng)絡(luò)

    如何設(shè)置兩個(gè)路由器使用同一個(gè)Wi-Fi網(wǎng)絡(luò) 隨著無(wú)線網(wǎng)絡(luò)的普及和需求量的增加,很多家庭和辦公室都會(huì)購(gòu)買(mǎi)多個(gè)路由器來(lái)擴(kuò)展無(wú)線網(wǎng)絡(luò)覆蓋范圍。然而
    的頭像 發(fā)表于 12-11 10:50 ?1.5w次閱讀