一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種自動(dòng)生成反向傳播方程的方法

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-14 09:55 ? 次閱讀

大神 Geffery Hinton 是反向傳播算法的發(fā)明者,但他也對(duì)反向傳播表示懷疑,認(rèn)為反向傳播顯然不是大腦運(yùn)作的方式,為了推動(dòng)技術(shù)進(jìn)步,必須要有全新的方法被發(fā)明出來。今天介紹的谷歌大腦多名研究人員發(fā)表的最新論文Backprop Evolution,提出一種自動(dòng)發(fā)現(xiàn)反向傳播方程新變體的方法,該方法發(fā)現(xiàn)了一些新的方程,訓(xùn)練速度比標(biāo)準(zhǔn)的反向傳播更快,訓(xùn)練時(shí)間也更短。

大神 Geoffrey Hinton提出的反向傳播算法是深度學(xué)習(xí)的基石。

1986 年,Geoffrey Hinton 與人合著了一篇論文:Learning representations by back-propagation errors,30 年之后,反向傳播算法成了這一波人工智能爆炸的核心。

但去年,Hinton 在接受采訪時(shí)表示,他對(duì)反向傳播算法 “深感懷疑”,認(rèn)為應(yīng)該徹底拋棄反向傳播,另起爐灶。Hinton 認(rèn)為,反向傳播不是大腦運(yùn)作的方式,我們的大腦顯然不需要對(duì)所有數(shù)據(jù)進(jìn)行標(biāo)注。為了推動(dòng)進(jìn)步,必須要有全新的方法被發(fā)明出來。

盡管Hinton、以及無數(shù)研究者仍未提出全新的、能夠代替?zhèn)鞑サ姆椒?,但最?a href="http://www.www27dydycom.cn/v/tag/557/" target="_blank">機(jī)器學(xué)習(xí)自動(dòng)搜索方法取得很多成功,反向傳播算法的變體也得到越來越多的研究。

柏林工業(yè)大學(xué)、谷歌大腦的多名研究人員在最新發(fā)表的論文Backprop Evolution,提出一種自動(dòng)發(fā)現(xiàn)反向傳播方程新變體的方法。研究人員使用領(lǐng)域特定語言將更新的方程描述為原函數(shù)列表。

具體來說,研究人員采用一種基于進(jìn)化的方法來發(fā)現(xiàn)新的傳播規(guī)則,這些規(guī)則在幾個(gè)epoch的訓(xùn)練之后可以最大限度地提高其泛化表現(xiàn)。他們發(fā)現(xiàn)了一些新的方程,它們的訓(xùn)練速度比標(biāo)準(zhǔn)的反向傳播更快,訓(xùn)練時(shí)間更短,并且在收斂時(shí)類似標(biāo)準(zhǔn)反向傳播。

自動(dòng)生成反向傳播方程

反向傳播算法是機(jī)器學(xué)習(xí)中最重要的算法之一。已有研究對(duì)反向傳播方程的變體進(jìn)行了一些嘗試,并取得一定程度的成功 (e.g., Bengio et al. (1994); Lillicrap et al. (2014); Lee et al. (2015); N?kland (2016); Liao et al. (2016))。但盡管有這些嘗試,反向傳播方程的修改并沒有得到廣泛應(yīng)用,因?yàn)檫@些修改很少對(duì)實(shí)際應(yīng)用有改進(jìn),甚至有時(shí)會(huì)造成損害。

受近期機(jī)器學(xué)習(xí)自動(dòng)搜索方法取得成功的啟發(fā),我們提出一種自動(dòng)生成反向傳播方程的方法。

為此,我們提出一種領(lǐng)域特定語言(domain specific language),以將這些數(shù)學(xué)公式描述為原始函數(shù)列表,并使用一種基于進(jìn)化(evolution-based)的方法來發(fā)現(xiàn)新的傳播規(guī)則。在經(jīng)過幾個(gè)epoch的訓(xùn)練后,搜索條件是使 generalization 最大化。我們找到了和標(biāo)準(zhǔn)反向傳播效果同樣好的幾個(gè)變體方程。此外,在較短的訓(xùn)練時(shí)間內(nèi),這幾種變體可以提高準(zhǔn)確率。這可以用來改進(jìn) Hyperband 之類的算法,在訓(xùn)練過程中做出基于準(zhǔn)確性的決策。

反向傳播

圖1:神經(jīng)網(wǎng)絡(luò)可以看作是一些計(jì)算圖。前向圖(forward graph)由網(wǎng)絡(luò)設(shè)計(jì)者定義,而反向傳播算法隱式地為參數(shù)更新定義了一個(gè)計(jì)算圖。本研究的主要貢獻(xiàn)是探索如何利用evolution來找到一個(gè)比標(biāo)準(zhǔn)反向傳播更有效的參數(shù)更新計(jì)算圖。

其中,是網(wǎng)絡(luò)的輸入,對(duì)layer進(jìn)行索引,為第的偏導(dǎo)數(shù),這跟權(quán)重矩陣有關(guān)。利用反向傳播算法中的鏈?zhǔn)椒▌t可以計(jì)算出這個(gè)量。為了計(jì)算隱藏激活

的偏導(dǎo)數(shù),要應(yīng)用一系列運(yùn)算:

一旦計(jì)算出,就可以將權(quán)重更新計(jì)算為:

如圖1所示,神經(jīng)網(wǎng)絡(luò)可以表示為前向和后向的計(jì)算圖。給定一個(gè)由網(wǎng)絡(luò)設(shè)計(jì)者定義的前向計(jì)算圖,反向傳播算法定義了一個(gè)用于更新參數(shù)的反向計(jì)算圖。但是,有可能找到一個(gè)改進(jìn)的反向計(jì)算圖,從而得到更好的泛化。

最近,用于機(jī)器學(xué)習(xí)的自動(dòng)搜索方法已經(jīng)在各種任務(wù)上取得了很好的結(jié)果,這些方法涉及修改前向計(jì)算圖,依靠反向傳播來定義適當(dāng)?shù)姆聪驁D。與之不同,在這項(xiàng)工作中,我們關(guān)注的是修改反向計(jì)算圖,并使用搜索方法為

方法

為了找到改進(jìn)的更新規(guī)則,我們使用進(jìn)化算法來搜索可能的更新方程(update equation)的空間。在每次迭代中,進(jìn)化控制器將一批突變的更新方程發(fā)送給workers池進(jìn)行評(píng)估。每個(gè)worker使用其接收到的變異方程來訓(xùn)練一個(gè)固定的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并將獲得的驗(yàn)證精度報(bào)告給控制器。

搜索空間

受到Bello et al. (2017) 的啟發(fā),我們使用領(lǐng)域特定語言(domain-specific language,DSL)來描述用于計(jì)算,其中是可能的操作數(shù),是一元函數(shù),是二元函數(shù)。一元函數(shù)和二元函數(shù)的集合是手動(dòng)指定的,但是函數(shù)和操作數(shù)的各個(gè)選擇由控制器選擇。每個(gè)組件的示例如下:

操作數(shù)(Operands):W(當(dāng)前層的權(quán)重矩陣),(高斯矩陣),(從(前向傳播的隱藏激活),(反向傳播的值)。

一元函數(shù)

二元函數(shù)

其中,

結(jié)果得到的量在方程1中被用作。在實(shí)驗(yàn)中,我們探索了由1到3個(gè)二元運(yùn)算組成的方程。這種DSL雖然簡(jiǎn)單,但可以表示復(fù)雜的方程,例如標(biāo)準(zhǔn)的反向傳播,feedback alignment,以及direct feedback alignment。

進(jìn)化算法

進(jìn)化控制器(evolutionary controller)維護(hù)一組已發(fā)現(xiàn)的方程。在每次迭代中,控制器執(zhí)行以下操作之一:1)概率為p的情況下,控制器在搜索期間找到的N個(gè)最優(yōu)競(jìng)爭(zhēng)力的方程中隨機(jī)選擇一個(gè)方程,2)概率為1 - p時(shí),控制器從population的其他方程中隨機(jī)選擇一個(gè)方程。

控制器隨后將k個(gè)突變(mutation)應(yīng)用于所選方程,其中k是從分類分布中提取的。這k個(gè)突變中的每一個(gè)只是簡(jiǎn)單地選擇一個(gè)隨機(jī)一致的方程組件(例如,一個(gè)操作數(shù),一個(gè)一元函數(shù),或者一個(gè)二元函數(shù)),然后將它與另一個(gè)隨機(jī)選擇的同類組件交換。某些突變會(huì)導(dǎo)致數(shù)學(xué)上不可行的方程,在這種情況下,控制器會(huì)重新啟動(dòng)突變過程,直到成功。N、p和k的分類分布是算法的超參數(shù)。

為了創(chuàng)建初始 population,我們簡(jiǎn)單地從搜索空間中隨機(jī)抽樣N個(gè)方程。此外,在我們的一些實(shí)驗(yàn)中,我們從一小部分預(yù)定義的方程開始(通常是正常的反向傳播方程或其反饋對(duì)齊方程變體)。從現(xiàn)有方程出發(fā)的能力是基于強(qiáng)化學(xué)習(xí)的進(jìn)化方法具有的優(yōu)勢(shì)。

實(shí)驗(yàn)和結(jié)果

在該方法中,用于評(píng)估每個(gè)新方程的模型的選擇是一個(gè)重要的設(shè)置。規(guī)模更大、更深的網(wǎng)絡(luò)會(huì)更真實(shí),但需要更長(zhǎng)的時(shí)間來訓(xùn)練,而較小的模型訓(xùn)練更快,但可能導(dǎo)致更新網(wǎng)絡(luò)無法推廣。我們通過使用Wide ResNets (WRN) 來平衡這兩個(gè)標(biāo)準(zhǔn),其中WRN有16層,寬度multiplier為2,并且在CIFAR-10數(shù)據(jù)集中進(jìn)行訓(xùn)練。

基線搜索和泛化

在第一次搜索中,控制器提出新方程訓(xùn)練WRN 16-2網(wǎng)絡(luò)20個(gè)epoch,并且分別在有或沒有動(dòng)量的情況下用SGD訓(xùn)練。根據(jù)驗(yàn)證準(zhǔn)確性收集前100個(gè)新方程,然后在不同場(chǎng)景下進(jìn)行測(cè)試:

(A1)使用20個(gè)epoch訓(xùn)練WRN 16-2 ,復(fù)制搜索設(shè)置;

(A2)使用20個(gè)epoch訓(xùn)練WRN 28-10 ,將其推廣到更大的模型(WRN 28- 10的參數(shù)是WRN 16-2的10倍);

(A3)使用100個(gè)epoch訓(xùn)練WRN 16-2 ,測(cè)試推廣到更長(zhǎng)的訓(xùn)練機(jī)制。

實(shí)驗(yàn)結(jié)果如表1所示:

表1:實(shí)驗(yàn)結(jié)果

從A1到A3,在每個(gè)設(shè)置中展示了兩個(gè)性能最好的方程,以及兩個(gè)在所有設(shè)置中都表現(xiàn)良好的方程。在B1中展示了4個(gè)性能最好的方程,所有結(jié)果均為5次以上的平均測(cè)試準(zhǔn)確率?;€是梯度反向傳播。比基線性能優(yōu)于0.1%的結(jié)果都用粗體表示。我們用

表示。

增加訓(xùn)練次數(shù)的搜索

之前的搜索實(shí)驗(yàn)發(fā)現(xiàn)新方程在訓(xùn)練開始時(shí)運(yùn)行良好,但在收斂時(shí)不優(yōu)于反向傳播。后一種結(jié)果可能是由于搜索和測(cè)試機(jī)制之間的不匹配,因?yàn)樗阉魇褂?0個(gè)epoch來訓(xùn)練子模型,而測(cè)試機(jī)制使用100個(gè)epoch。

一個(gè)后續(xù)方案是匹配這兩個(gè)機(jī)制。在第二次搜索實(shí)驗(yàn)中,使用100個(gè)epoch訓(xùn)練每個(gè)子模型。為了補(bǔ)償由于使用較多的epoch進(jìn)行訓(xùn)練而導(dǎo)致的實(shí)驗(yàn)時(shí)間增加,使用較小的網(wǎng)絡(luò)(WRN 10-1)作為子模型。使用較小的模型是可以接受的,因?yàn)樾路匠虄A向于推廣到更大,更真實(shí)的模型,如(A2)。

實(shí)驗(yàn)結(jié)果在表1中的(B1),與(A3)較為相似,即,可以找到對(duì)SGD表現(xiàn)較好的更新規(guī)則,但是對(duì)有動(dòng)量的SGD的結(jié)果與基線相當(dāng)。(A3)和(B1)結(jié)果的相似性表明,訓(xùn)練時(shí)間的差異可能不是誤差的主要來源。此外,具有動(dòng)量的SGD對(duì)于不同的新方程是幾乎不變的。

總結(jié)

在這項(xiàng)工作中,提出了一種自動(dòng)查找可以取代標(biāo)準(zhǔn)反向傳播的方程的方法。使用了一種進(jìn)化控制器(在方程分量空間中工作),并試圖最大化訓(xùn)練網(wǎng)絡(luò)的泛化。探索性研究的結(jié)果表明,對(duì)于特定的場(chǎng)景,有一些方程的泛化性能比基線更好,但要找到一個(gè)在一般場(chǎng)景中表現(xiàn)更好的方程還需要做更多的工作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6219

    瀏覽量

    107179
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48449

    瀏覽量

    245061
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5547

    瀏覽量

    122315

原文標(biāo)題:谷歌大作:自動(dòng)改良反向傳播算法,訓(xùn)練速度再提升!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一種基于路測(cè)數(shù)據(jù)的傳播模型校正方法

    準(zhǔn)確性等問題,提出了一種利用現(xiàn)網(wǎng)路測(cè)數(shù)據(jù)進(jìn)行傳播模型校正的方法.從理論上證明了路測(cè)信號(hào)可以替代連續(xù)波測(cè)試信號(hào)用于傳播模型校正,通過增加路測(cè)次數(shù)和利用歷史數(shù)據(jù)、鄰區(qū)數(shù)據(jù)等
    發(fā)表于 04-23 11:52

    一種同步通訊板的網(wǎng)絡(luò)電路碼表的生成

    介紹了一種同步通訊板的系統(tǒng)原理,以及利用結(jié)點(diǎn)方程通過編程生成同步通訊板網(wǎng)絡(luò)電路的正弦波碼表的方法。關(guān)鍵詞:網(wǎng)絡(luò)電路;結(jié)點(diǎn)方程; 正弦波; 碼
    發(fā)表于 09-05 10:32 ?12次下載

    一種多尺度多視點(diǎn)特性視圖生成方法的研究和應(yīng)用_謝冰

    一種多尺度多視點(diǎn)特性視圖生成方法的研究和應(yīng)用_謝冰
    發(fā)表于 03-15 09:27 ?0次下載

    一種新穎的自動(dòng)化攻擊圖生成方法_武健

    一種新穎的自動(dòng)化攻擊圖生成方法_武健
    發(fā)表于 03-19 11:45 ?0次下載

    一種自動(dòng)生成循環(huán)摘要的方法

    存放的新值來描述循環(huán)語句的執(zhí)行效果,并將該執(zhí)行效果定義為循環(huán)摘要,同時(shí),提出一種自動(dòng)生成循環(huán)摘要的方法,可以為操作常用數(shù)據(jù)結(jié)構(gòu)的循環(huán)自動(dòng)
    發(fā)表于 12-29 11:12 ?0次下載

    一種新的DEA公共權(quán)重生成方法

    針對(duì)傳統(tǒng)數(shù)據(jù)包絡(luò)分析(DEA)公共權(quán)重生成方法不同時(shí)具備線性、規(guī)模無關(guān)優(yōu)點(diǎn)的問題,根據(jù)軍事訓(xùn)練績(jī)效評(píng)估需求,提出了一種新的DEA公共權(quán)重生成方法。該方法以DEA有效單位為計(jì)算基礎(chǔ),首先
    發(fā)表于 01-13 11:03 ?0次下載

    一種支持用戶隱私保護(hù)的信息傳播方法

    傳播方式(稱為轉(zhuǎn)述)因?yàn)殡y以追蹤,所以存在隱私泄漏的風(fēng)險(xiǎn)。針對(duì)上述問題,定義了一種支持轉(zhuǎn)述關(guān)系的社交網(wǎng)絡(luò)信息傳播模型,提岀了一種支持用戶隱私保護(hù)的信息
    發(fā)表于 04-02 09:56 ?6次下載
    <b class='flag-5'>一種</b>支持用戶隱私保護(hù)的信息<b class='flag-5'>傳播</b><b class='flag-5'>方法</b>

    一種全新的遙感圖像描述生成方法

    遙感圖像描述生成是同時(shí)涉及計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的熱門研究話題,其主要工作是對(duì)于給定的圖像自動(dòng)生成個(gè)對(duì)該圖像的描述語句。文中提岀了一種
    發(fā)表于 04-20 11:21 ?2次下載
    <b class='flag-5'>一種</b>全新的遙感圖像描述<b class='flag-5'>生成方法</b>

    一種基于改進(jìn)的DCGAN生成SAR圖像的方法

    針對(duì)SAR圖像識(shí)別軟件,通過改進(jìn) DCGAN模型單生成器與單判別器對(duì)抗的結(jié)構(gòu),采用多生成器與單判別器進(jìn)行對(duì)抗,設(shè)計(jì)了控制各生成生成圖像平均質(zhì)量的算法,提出了
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一種</b>基于改進(jìn)的DCGAN<b class='flag-5'>生成</b>SAR圖像的<b class='flag-5'>方法</b>

    一種Keil MDK生成BIN文件的簡(jiǎn)易方法。

    一種Keil MDK生成BIN文件的簡(jiǎn)易方法。
    發(fā)表于 01-13 10:18 ?2次下載

    一種反向傳播的 TTA 語義分割方法

    蒸餾正則化實(shí)現(xiàn)內(nèi)存高效的 CoTTA 推薦對(duì)領(lǐng)域適應(yīng)不了解的同學(xué)先閱讀前置文章。目前的 TTA 方法針對(duì)反向傳播的方式可以大致劃分為: 請(qǐng)?zhí)砑訄D片描述 之前介紹過的 CoTTA 可以屬于 Fully
    的頭像 發(fā)表于 06-30 15:10 ?752次閱讀
    <b class='flag-5'>一種</b>免<b class='flag-5'>反向</b><b class='flag-5'>傳播</b>的 TTA 語義分割<b class='flag-5'>方法</b>

    CVPR 2023 中的領(lǐng)域適應(yīng): 一種反向傳播的TTA語義分割方法

    TTA 在語義分割中的應(yīng)用,效率和性能都至關(guān)重要。現(xiàn)有方法要么效率低(例如,需要反向傳播的優(yōu)化),要么忽略語義適應(yīng)(例如,分布對(duì)齊)。此外,還會(huì)受到不穩(wěn)定優(yōu)化和異常分布引起的誤差積累的困擾。
    的頭像 發(fā)表于 06-30 15:13 ?1153次閱讀
    CVPR 2023 中的領(lǐng)域適應(yīng): <b class='flag-5'>一種</b>免<b class='flag-5'>反向</b><b class='flag-5'>傳播</b>的TTA語義分割<b class='flag-5'>方法</b>

    神經(jīng)網(wǎng)絡(luò)前向傳播反向傳播區(qū)別

    神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)模型,廣泛應(yīng)用于各種領(lǐng)域,如圖像識(shí)別、語音識(shí)別、自然語言處理等。神經(jīng)網(wǎng)絡(luò)的核心是前向傳播反向傳播算法。本文將詳細(xì)介紹神經(jīng)網(wǎng)絡(luò)的前向
    的頭像 發(fā)表于 07-02 14:18 ?1223次閱讀

    神經(jīng)網(wǎng)絡(luò)反向傳播算法的優(yōu)缺點(diǎn)有哪些

    神經(jīng)網(wǎng)絡(luò)反向傳播算法(Backpropagation Algorithm)是一種廣泛應(yīng)用于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域的優(yōu)化算法,用于訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)。本文將介紹反向
    的頭像 發(fā)表于 07-03 11:24 ?1693次閱讀

    什么是BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法

    BP神經(jīng)網(wǎng)絡(luò)的反向傳播算法(Backpropagation Algorithm)是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的有效方法。以下是關(guān)于BP神經(jīng)網(wǎng)絡(luò)的反向
    的頭像 發(fā)表于 02-12 15:18 ?471次閱讀