一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升!

DPVg_AI_era ? 來源:YXQ ? 2019-06-16 11:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功,谷歌的研究團(tuán)隊(duì)在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,使用了翻譯作為一般的序列任務(wù)的代理,并找到了Evolved Transformer這一新的Transformer架構(gòu)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果,與原始的Transformer相比,它還展示了語言建模的改進(jìn)性能。

自幾年前推出以來,Google的Transformer架構(gòu)已經(jīng)應(yīng)用于從制作奇幻小說到編寫音樂和聲的各種挑戰(zhàn)。重要的是,Transformer的高性能已經(jīng)證明,當(dāng)應(yīng)用于序列任務(wù)(例如語言建模和翻譯)時(shí),前饋神經(jīng)網(wǎng)絡(luò)可以與遞歸神經(jīng)網(wǎng)絡(luò)一樣有效。雖然用于序列問題的Transformer和其他前饋模型越來越受歡迎,但它們的架構(gòu)幾乎完全是手動(dòng)設(shè)計(jì)的,與計(jì)算機(jī)視覺領(lǐng)域形成鮮明對(duì)比。AutoML方法已經(jīng)找到了最先進(jìn)的模型,其性能優(yōu)于手工設(shè)計(jì)的模型。當(dāng)然,我們想知道AutoML在序列域中的應(yīng)用是否同樣成功。

在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,我們使用翻譯作為一般的序列任務(wù)的代理,我們找到了Evolved Transformer,這是一種新的Transformer架構(gòu),它展示了對(duì)各種自然語言處理(NLP)任務(wù)的有希望的改進(jìn)。Evolved Transformer不僅實(shí)現(xiàn)了最先進(jìn)的翻譯結(jié)果,而且與原始的Transformer相比,它還展示了語言建模的改進(jìn)性能。我們是將此新模型作為Tensor2Tensor的部分發(fā)布,它可用于任何序列問題。

開發(fā)技術(shù)

要開始進(jìn)化NAS,我們有必要開發(fā)新技術(shù),因?yàn)橛糜谠u(píng)估每個(gè)架構(gòu)的“適應(yīng)性”的任務(wù)——WMT'14英語-德語翻譯——計(jì)算量很大。這使得搜索比在視覺領(lǐng)域中執(zhí)行的類似搜索更加昂貴,這可以利用較小的數(shù)據(jù)集,如CIFAR-10。

這些技術(shù)中的第一種是溫啟動(dòng)——在初始進(jìn)化種群中播種Transformer架構(gòu)而不是隨機(jī)模型。這有助于在我們熟悉的搜索空間區(qū)域中進(jìn)行搜索,從而使其能夠更快地找到更好的模型。

第二種技術(shù)是我們開發(fā)的一種稱為漸進(jìn)動(dòng)態(tài)障礙(PDH)(Progressive Dynamic Hurdles)的新方法,這種算法增強(qiáng)了進(jìn)化搜索,以便為最強(qiáng)的候選者分配更多的資源,這與先前的工作相反,其中NAS的每個(gè)候選模型被分配相同的評(píng)估時(shí)的資源量。如果模型明顯不好,PDH允許我們提前終止對(duì)模型的評(píng)估,從而使有前途的架構(gòu)獲得更多資源。

Evolved Transformer簡(jiǎn)介

使用這些方法,我們?cè)诜g任務(wù)上進(jìn)行了大規(guī)模的NAS,并發(fā)現(xiàn)了Evolved Transformer(ET)。與大多數(shù)序列到序列(seq2seq)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)一樣,它有一個(gè)編碼器,將輸入序列編碼為嵌入,解碼器使用這些嵌入構(gòu)造輸出序列;在翻譯的情況下,輸入序列是要翻譯的句子,輸出序列是翻譯。

演化變壓器最有趣的特征是其編碼器和解碼器模塊底部的卷積層,在兩個(gè)地方都以類似的分支模式添加(即輸入在加到一起之前通過兩個(gè)單獨(dú)的卷積層)。

Evolved Transformer與原始Transformer編碼器架構(gòu)的比較。注意模塊底部的分支卷積結(jié)構(gòu),它獨(dú)立地在編碼器和解碼器中形成。

這一點(diǎn)特別有趣,因?yàn)樵贜AS期間編碼器和解碼器架構(gòu)不共享,因此獨(dú)立發(fā)現(xiàn)該架構(gòu)對(duì)編碼器和解碼器都很有用,這說明了該設(shè)計(jì)的優(yōu)勢(shì)。雖然最初的Transformer完全依賴于自我關(guān)注,但Evolved Transformer是一種混合體,利用了自我關(guān)注和廣泛卷積的優(yōu)勢(shì)。

對(duì)Evolved Transformer的評(píng)估

為了測(cè)試這種新架構(gòu)的有效性,我們首先將它與我們?cè)谒阉髌陂g使用的英語-德語翻譯任務(wù)的原始Transformer進(jìn)行了比較。我們發(fā)現(xiàn)在所有參數(shù)尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,擁有最大增益與移動(dòng)設(shè)備兼容(約700萬個(gè)參數(shù)),證明了參數(shù)的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上達(dá)到了最先進(jìn)的性能,BLEU得分為29.8,SacreBLEU得分為29.2。

不同尺寸的WMT'14 En-DeEvolved Transformer與原Transformer的比較。性能的最大提高發(fā)生在較小的尺寸上,而ET在較大的尺寸上也顯示出強(qiáng)度,優(yōu)于最大的Transformer,參數(shù)減少37.6%(要比較的模型用綠色圈出)。

為了測(cè)試普遍性,我們還在其他NLP任務(wù)上將ET與Transformer進(jìn)行了比較。首先,我們研究了使用不同語言對(duì)的翻譯,發(fā)現(xiàn)ET表現(xiàn)提升,其邊緣與英語-德語相似;再次,由于其有效使用參數(shù),對(duì)于中型模型觀察到了最大的提升。我們還比較了使用LM1B進(jìn)行語言建模的兩種模型的解碼器,并且看到性能提升近2個(gè)perplexity。

未來工作

這些結(jié)果是探索體系結(jié)構(gòu)搜索在前饋序列模型中應(yīng)用的第一步。Evolved Transformer作為Tensor2Tensor的一部分已開源,在那里它可以用于任何序列問題。為了提高可重復(fù)性,我們還開源了我們用于搜索的搜索空間,以及實(shí)施漸進(jìn)動(dòng)態(tài)障礙的Colab。我們期待著看到研究團(tuán)體用新模型做了什么,并希望其他人能夠利用這些新的搜索技術(shù)!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108153
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3689

    瀏覽量

    43834

原文標(biāo)題:谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升,已開源!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?296次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>中編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?345次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>概述

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機(jī)器翻譯。Transformer 通過引入自注意力機(jī)制使得處理長(zhǎng)距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“注意力是所需的一切”。
    的頭像 發(fā)表于 02-06 10:21 ?4051次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    AI助力實(shí)時(shí)翻譯耳機(jī)

    是一種能夠?qū)崟r(shí)一種語言翻譯成另一種語言的耳機(jī)設(shè)備。它通常由一個(gè)耳機(jī)和一個(gè)配套的應(yīng)用程序組成,用戶可以通過應(yīng)用程序選擇需要翻譯的語言,并通過耳機(jī)聽到翻譯
    的頭像 發(fā)表于 01-24 11:14 ?1677次閱讀
    AI助力實(shí)時(shí)<b class='flag-5'>翻譯</b>耳機(jī)

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會(huì)統(tǒng)治世界。 我們花了兩年時(shí)間打造Sohu,這是世界上第一個(gè)用于transformer(ChatGPT中的“T”)的專用芯片。
    的頭像 發(fā)表于 01-06 09:13 ?1159次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠,快來體驗(yàn)!

    應(yīng)用案例 aicode.llmworld.net 案例一 閱讀復(fù)雜算法,將計(jì)算機(jī)語言翻譯成自然語言和偽代碼,快速幫助用戶理解算法實(shí)現(xiàn)邏輯。 Input(C++): 正弦波信號(hào)進(jìn)行傅里葉變換,并輸出其頻域結(jié)果的C++
    的頭像 發(fā)表于 12-09 11:11 ?1006次閱讀
    LLMWorld上線代碼<b class='flag-5'>翻譯</b>新工具——問丫·碼語<b class='flag-5'>翻譯</b>俠,快來體驗(yàn)!

    Transformer是機(jī)器人技術(shù)的基礎(chǔ)嗎

    生成式預(yù)訓(xùn)練Transformer(GPT)被吹捧為徹底改變機(jī)器人技術(shù)。但實(shí)際應(yīng)用中,GPT需要龐大且昂貴的計(jì)算資源、冗長(zhǎng)的訓(xùn)練時(shí)間以及(通常)非機(jī)載無線控制,諸多限制之下,GPT技術(shù)真的
    的頭像 發(fā)表于 12-05 10:54 ?672次閱讀
    <b class='flag-5'>Transformer</b>是機(jī)器人技術(shù)的基礎(chǔ)嗎

    Transformer模型的具體應(yīng)用

    如果想在 AI 領(lǐng)域引領(lǐng)一輪新浪潮,就需要使用到 Transformer。
    的頭像 發(fā)表于 11-20 09:28 ?1568次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應(yīng)用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發(fā)表于 11-20 09:27 ?1018次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    SensiML開源了Analytics Studio AutoML引擎

    我們很高興地宣布,我們的AutoML服務(wù)器應(yīng)用程序Analytics Studio很快在開源許可下提供。我們還將推出一個(gè)新的開源項(xiàng)目網(wǎng)站,以聯(lián)合一個(gè)致力于為 tinyML 模型開發(fā)創(chuàng)建全面的、與硬件無關(guān)的解決方案的開發(fā)人員社區(qū)。此次發(fā)布計(jì)劃于初夏進(jìn)行,我們正準(zhǔn)備在您的支
    的頭像 發(fā)表于 11-06 09:36 ?814次閱讀
    SensiML開源了Analytics Studio <b class='flag-5'>AutoML</b>引擎

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時(shí),直接大型語言模型(LLM)的訓(xùn)練速度提升了高達(dá)20倍。這一顯著的性能提升,無疑極大地推動(dòng)AI技術(shù)
    的頭像 發(fā)表于 10-23 11:30 ?883次閱讀

    UCC3570電壓模式PWM控制器應(yīng)用于離線AND DC/DC轉(zhuǎn)換器設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《UCC3570電壓模式PWM控制器應(yīng)用于離線AND DC/DC轉(zhuǎn)換器設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 10-23 09:18 ?1次下載
    <b class='flag-5'>將</b>UCC3570電壓模式PWM控制器<b class='flag-5'>應(yīng)用于</b>離線AND DC/DC轉(zhuǎn)換器設(shè)計(jì)

    TI TSC應(yīng)用于各種和多種功能

    電子發(fā)燒友網(wǎng)站提供《TI TSC應(yīng)用于各種和多種功能.pdf》資料免費(fèi)下載
    發(fā)表于 10-22 10:15 ?0次下載
    <b class='flag-5'>將</b>TI TSC<b class='flag-5'>應(yīng)用于</b>各種和多種功能

    如何 THVD8000 應(yīng)用于星型網(wǎng)絡(luò)系統(tǒng)

    電子發(fā)燒友網(wǎng)站提供《如何 THVD8000 應(yīng)用于星型網(wǎng)絡(luò)系統(tǒng).pdf》資料免費(fèi)下載
    發(fā)表于 09-12 10:36 ?0次下載
    如何<b class='flag-5'>將</b> THVD8000 <b class='flag-5'>應(yīng)用于</b>星型網(wǎng)絡(luò)系統(tǒng)

    SensiML開源AutoML解決方案-Piccolo AI發(fā)布

    SensiML強(qiáng)大的Analytics Studio軟件開發(fā)工具的開源版本-Piccolo AI發(fā)布了!Piccolo AI遵循AGPL許可,面向個(gè)人開發(fā)者、研究人員和AI愛好者,旨在AutoML
    的頭像 發(fā)表于 07-22 16:53 ?1068次閱讀