波多野吉一区二区三区免费视频 ,国产精品婷婷久久丁香,亚洲一级成人电影在线观看

谷歌、DeepMind：以 Transformer 為例，淺析歸納偏置對(duì)模型縮放的影響。

Transformer 模型的縮放近年來引發(fā)了眾多學(xué)者的研究興趣。然而，對(duì)于模型架構(gòu)所施加的不同歸納偏置的縮放性質(zhì)，人們了解得并不多。通常假設(shè)，在特定標(biāo)度（計(jì)算、大小等）的改進(jìn)可以遷移到不同的規(guī)模和計(jì)算區(qū)域。

不過，理解架構(gòu)和標(biāo)度律之間的相互作用至關(guān)重要，設(shè)計(jì)在不同標(biāo)度上表現(xiàn)良好的模型具有重要的研究意義。有幾個(gè)問題還需要搞清楚：模型體系架構(gòu)之間的縮放性不同嗎？如果是這樣，歸納偏置如何影響縮放表現(xiàn)？又如何影響上游（預(yù)訓(xùn)練）和下游（遷移）任務(wù)？

在最近的一篇論文中，谷歌的研究者試圖了解歸納偏置（體系架構(gòu)）對(duì)語言模型標(biāo)度律的影響。為此，研究者在多個(gè)計(jì)算區(qū)域和范圍內(nèi)（從 1500 萬到 400 億參數(shù)）預(yù)訓(xùn)練和微調(diào)了十種不同的模型架構(gòu)。總體來說，他們預(yù)訓(xùn)練和微調(diào)了 100 多種不同體系架構(gòu)和大小的模型，并提出了在縮放這十種不同體系架構(gòu)方面的見解和挑戰(zhàn)。

論文鏈接：https://arxiv.org/pdf/2207.10551.pdf

他們還注意到，縮放這些模型并不像看起來那么簡(jiǎn)單，也就是說，縮放的復(fù)雜細(xì)節(jié)與本文中詳細(xì)研究的體系架構(gòu)選擇交織在一起。例如，Universal Transformers （和 ALBERT）的一個(gè)特性是參數(shù)共享。與標(biāo)準(zhǔn)的 Transformer 相比，這種體系架構(gòu)的選擇不僅在性能方面，而且在計(jì)算指標(biāo)如 FLOPs、速度和參數(shù)量方面顯著 warp 了縮放行為。相反，像 Switch Transformers 這樣的模型則截然不同，它的 FLOPs 和參數(shù)量之間的關(guān)系是不尋常的。

具體來說，本文的主要貢獻(xiàn)如下：

首次推導(dǎo)出不同歸納偏置和模型架構(gòu)的標(biāo)度律。研究者發(fā)現(xiàn)這個(gè)標(biāo)度系數(shù)在不同的模型中有很大的不同，并指出這是模型開發(fā)中的一個(gè)重要考慮因素。事實(shí)證明，在他們考慮的所有十種體系架構(gòu)中，普通的 Transformer 擁有最好的縮放性能，即使它在每個(gè)計(jì)算區(qū)域的絕對(duì)性能不是最好的。

研究者觀察到，在一個(gè)計(jì)算標(biāo)度區(qū)域中運(yùn)行良好的模型不一定是另一個(gè)計(jì)算標(biāo)度區(qū)域中的最佳模型。此外，他們發(fā)現(xiàn)，某些模型盡管在低計(jì)算區(qū)域表現(xiàn)良好，但是難以進(jìn)行縮放。這意味著很難通過在某個(gè)計(jì)算區(qū)域進(jìn)行逐點(diǎn)對(duì)比來獲得模型縮放性的全貌。

研究者發(fā)現(xiàn)，當(dāng)涉及到縮放不同的模型架構(gòu)時(shí)，上游預(yù)訓(xùn)練的困惑度可能與下游遷移不太相關(guān)。因此，底層架構(gòu)和歸納偏置對(duì)于下游遷移也是至關(guān)重要的。

研究者強(qiáng)調(diào)了在某些架構(gòu)下進(jìn)行縮放的困難，并展示了一些模型沒有進(jìn)行縮放（或以消極趨勢(shì)進(jìn)行縮放）。他們還發(fā)現(xiàn)線性時(shí)間注意力模型（比如 Performer）難以進(jìn)行擴(kuò)展的趨勢(shì)。

方法與實(shí)驗(yàn)

在論文的第三章，研究者概述了整體的實(shí)驗(yàn)設(shè)置，并介紹了實(shí)驗(yàn)中評(píng)估的模型。

下表 1 展示了本文的主要結(jié)果，包括可訓(xùn)練參數(shù)量、FLOPs（單次正向傳遞）和速度（每秒步數(shù)）等，此外還包括了驗(yàn)證困惑度（上游預(yù)訓(xùn)練）和 17 個(gè)下游任務(wù)的結(jié)果。

所有模型的縮放方式是否相同？

下圖 2 展示了增加 FLOPs 數(shù)量時(shí)所有模型的縮放行為?？梢杂^察到，所有模型的縮放行為是相當(dāng)獨(dú)特和不同的，即其中大多數(shù)不同于標(biāo)準(zhǔn) Transformer。也許這里最大的發(fā)現(xiàn)是，大多數(shù)模型（例如 LConv、Evolution）似乎都與標(biāo)準(zhǔn) Transformer 表現(xiàn)相當(dāng)或更好，但無法按照更高的計(jì)算預(yù)算去縮放。

另一個(gè)有趣的趨勢(shì)是，「線性」Transformer，如 Performer，不能按比例縮放。如圖 2i 所示，從 base 到 large scale 相比，預(yù)訓(xùn)練的困惑度只下降了 2.7% 。而對(duì)于 vanilla Transformer 來說這一數(shù)字是 8.4%。

下圖 3 展示了下游遷移任務(wù)上所有模型的縮放曲線，可以發(fā)現(xiàn)，和 Transformer 相比，大多數(shù)模型有著不同的縮放曲線，在下游任務(wù)中變化明顯。值得注意的是，大多數(shù)模型都有不同的上游或下游縮放曲線。

研究者發(fā)現(xiàn)，一些模型如 Funnel Transformer 和 LConv，似乎在上游表現(xiàn)相當(dāng)不錯(cuò)，但在下游受到很大影響。至于 Performer，上游和下游的性能差距似乎更大。值得注意的是，SuperGLUE 的下游任務(wù)通常需要編碼器上的偽交叉注意力，而卷積這樣的模型是無法處理的（Tay et al.， 2021a）。

因此，研究者發(fā)現(xiàn)盡管某些模型擁有良好的上游性能，但可能還是難以學(xué)習(xí)下游任務(wù)。

每一標(biāo)度的最佳模型是否有所不同？

下圖 1 展示了根據(jù)上游或下游性能進(jìn)行計(jì)算時(shí)的帕累托邊界。圖的顏色代表不同的模型，可以觀察到，每個(gè)標(biāo)度和計(jì)算區(qū)域的最佳模型可能是不同的。此外，從上圖 3 中也可以看到這一點(diǎn)。例如，Evolved Transformer 似乎在微?。╰iny）到?。╯mall）的區(qū)域（下游）和標(biāo)準(zhǔn) Transformer 一樣表現(xiàn)很好，但是當(dāng)放大模型時(shí)，這種情況迅速改變。研究者在 MoS-Transformer 也觀察到了這一點(diǎn)，它在某些區(qū)域的表現(xiàn)明顯優(yōu)于普通的 Transformer ，但在其他區(qū)域則不然。

每個(gè)模型的標(biāo)度律

下表 2 給出了多種情況下每個(gè)模型的擬合線性直線 α 的斜率。研究者通過繪制 F（FLOPs）、U （上游困惑度）、D （下游準(zhǔn)確率）和 P（參數(shù)量）得到了α。一般來說，α 描述了模型的縮放性，例如 α_F，U 根據(jù)上游性能繪制 FLOPs。唯一的例外是α_U，D，它是衡量上游和下游性能的度量，高的 α_U，D 值意味著向下游任務(wù)遷移的模型縮放更佳?？傮w來說，α 值是一個(gè)度量，表示一個(gè)模型在縮放上的相對(duì)表現(xiàn)。

Scaling Protocols 是否以同樣的方式影響模型體系架構(gòu)？

下圖 4 展示了四個(gè)模型體系架構(gòu)（MoS-Transformer、Transformer、Evolved Transformer、LConv）中縮放深度的影響。

下圖 5 展示了在相同的四個(gè)體系架構(gòu)中縮放寬度的影響。首先，在上游（負(fù)對(duì)數(shù)困惑）曲線上可以注意到，雖然不同的架構(gòu)在絕對(duì)性能上有明顯的差異，但縮放趨勢(shì)仍然非常相似。在下游，除了 LConv 之外，深度縮放（上圖 4）在大多數(shù)體系架構(gòu)上的作用似乎是一樣的。同時(shí)，相對(duì)于寬度縮放，似乎 Evolved Transformer 在應(yīng)用寬度縮放時(shí)會(huì)稍微好一點(diǎn)。值得注意的是，與寬度縮放相比，深度縮放對(duì)下游縮放的影響要大得多。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6231

瀏覽量
108199
模型

模型

+關(guān)注

關(guān)注
1

文章
3522

瀏覽量
50452
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
151

瀏覽量
6528

原文標(biāo)題：谷歌、DeepMind新研究：歸納偏置如何影響模型縮放？

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

淺析歸納偏置對(duì)模型縮放的影響

評(píng)論