一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析歸納偏置對(duì)模型縮放的影響

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-09-05 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌、DeepMind:以 Transformer 為例,淺析歸納偏置對(duì)模型縮放的影響。

Transformer 模型的縮放近年來引發(fā)了眾多學(xué)者的研究興趣。然而,對(duì)于模型架構(gòu)所施加的不同歸納偏置的縮放性質(zhì),人們了解得并不多。通常假設(shè),在特定標(biāo)度(計(jì)算、大小等)的改進(jìn)可以遷移到不同的規(guī)模和計(jì)算區(qū)域。

不過,理解架構(gòu)和標(biāo)度律之間的相互作用至關(guān)重要,設(shè)計(jì)在不同標(biāo)度上表現(xiàn)良好的模型具有重要的研究意義。有幾個(gè)問題還需要搞清楚:模型體系架構(gòu)之間的縮放性不同嗎?如果是這樣,歸納偏置如何影響縮放表現(xiàn)?又如何影響上游(預(yù)訓(xùn)練)和下游(遷移)任務(wù)?

在最近的一篇論文中,谷歌的研究者試圖了解歸納偏置(體系架構(gòu))對(duì)語言模型標(biāo)度律的影響。為此,研究者在多個(gè)計(jì)算區(qū)域和范圍內(nèi)(從 1500 萬到 400 億參數(shù))預(yù)訓(xùn)練和微調(diào)了十種不同的模型架構(gòu)。總體來說,他們預(yù)訓(xùn)練和微調(diào)了 100 多種不同體系架構(gòu)和大小的模型,并提出了在縮放這十種不同體系架構(gòu)方面的見解和挑戰(zhàn)。

9346d5ca-2c5b-11ed-ba43-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2207.10551.pdf

他們還注意到,縮放這些模型并不像看起來那么簡(jiǎn)單,也就是說,縮放的復(fù)雜細(xì)節(jié)與本文中詳細(xì)研究的體系架構(gòu)選擇交織在一起。例如,Universal Transformers (和 ALBERT) 的一個(gè)特性是參數(shù)共享。與標(biāo)準(zhǔn)的 Transformer 相比,這種體系架構(gòu)的選擇不僅在性能方面,而且在計(jì)算指標(biāo)如 FLOPs、速度和參數(shù)量方面顯著 warp 了縮放行為。相反,像 Switch Transformers 這樣的模型則截然不同,它的 FLOPs 和參數(shù)量之間的關(guān)系是不尋常的。

具體來說,本文的主要貢獻(xiàn)如下:

首次推導(dǎo)出不同歸納偏置和模型架構(gòu)的標(biāo)度律。研究者發(fā)現(xiàn)這個(gè)標(biāo)度系數(shù)在不同的模型中有很大的不同,并指出這是模型開發(fā)中的一個(gè)重要考慮因素。事實(shí)證明,在他們考慮的所有十種體系架構(gòu)中,普通的 Transformer 擁有最好的縮放性能,即使它在每個(gè)計(jì)算區(qū)域的絕對(duì)性能不是最好的。

研究者觀察到,在一個(gè)計(jì)算標(biāo)度區(qū)域中運(yùn)行良好的模型不一定是另一個(gè)計(jì)算標(biāo)度區(qū)域中的最佳模型。此外,他們發(fā)現(xiàn),某些模型盡管在低計(jì)算區(qū)域表現(xiàn)良好 ,但是難以進(jìn)行縮放。這意味著很難通過在某個(gè)計(jì)算區(qū)域進(jìn)行逐點(diǎn)對(duì)比來獲得模型縮放性的全貌。

研究者發(fā)現(xiàn),當(dāng)涉及到縮放不同的模型架構(gòu)時(shí),上游預(yù)訓(xùn)練的困惑度可能與下游遷移不太相關(guān)。因此,底層架構(gòu)和歸納偏置對(duì)于下游遷移也是至關(guān)重要的。

研究者強(qiáng)調(diào)了在某些架構(gòu)下進(jìn)行縮放的困難,并展示了一些模型沒有進(jìn)行縮放(或以消極趨勢(shì)進(jìn)行縮放)。他們還發(fā)現(xiàn)線性時(shí)間注意力模型(比如 Performer)難以進(jìn)行擴(kuò)展的趨勢(shì)。

方法與實(shí)驗(yàn)

在論文的第三章,研究者概述了整體的實(shí)驗(yàn)設(shè)置,并介紹了實(shí)驗(yàn)中評(píng)估的模型。

下表 1 展示了本文的主要結(jié)果,包括可訓(xùn)練參數(shù)量、FLOPs(單次正向傳遞)和速度(每秒步數(shù))等,此外還包括了驗(yàn)證困惑度(上游預(yù)訓(xùn)練)和 17 個(gè)下游任務(wù)的結(jié)果。

93612452-2c5b-11ed-ba43-dac502259ad0.png

所有模型的縮放方式是否相同?

下圖 2 展示了增加 FLOPs 數(shù)量時(shí)所有模型的縮放行為??梢杂^察到,所有模型的縮放行為是相當(dāng)獨(dú)特和不同的,即其中大多數(shù)不同于標(biāo)準(zhǔn) Transformer。也許這里最大的發(fā)現(xiàn)是,大多數(shù)模型(例如 LConv、Evolution)似乎都與標(biāo)準(zhǔn) Transformer 表現(xiàn)相當(dāng)或更好,但無法按照更高的計(jì)算預(yù)算去縮放。

另一個(gè)有趣的趨勢(shì)是,「線性」Transformer,如 Performer,不能按比例縮放。如圖 2i 所示,從 base 到 large scale 相比,預(yù)訓(xùn)練的困惑度只下降了 2.7% 。而對(duì)于 vanilla Transformer 來說這一數(shù)字是 8.4%。

93798bbe-2c5b-11ed-ba43-dac502259ad0.png

下圖 3 展示了下游遷移任務(wù)上所有模型的縮放曲線,可以發(fā)現(xiàn),和 Transformer 相比,大多數(shù)模型有著不同的縮放曲線,在下游任務(wù)中變化明顯。值得注意的是,大多數(shù)模型都有不同的上游或下游縮放曲線。

研究者發(fā)現(xiàn),一些模型如 Funnel Transformer 和 LConv,似乎在上游表現(xiàn)相當(dāng)不錯(cuò),但在下游受到很大影響。至于 Performer,上游和下游的性能差距似乎更大。值得注意的是,SuperGLUE 的下游任務(wù)通常需要編碼器上的偽交叉注意力,而卷積這樣的模型是無法處理的(Tay et al., 2021a)。

因此,研究者發(fā)現(xiàn)盡管某些模型擁有良好的上游性能,但可能還是難以學(xué)習(xí)下游任務(wù)。

9392c76e-2c5b-11ed-ba43-dac502259ad0.png

每一標(biāo)度的最佳模型是否有所不同?

下圖 1 展示了根據(jù)上游或下游性能進(jìn)行計(jì)算時(shí)的帕累托邊界。圖的顏色代表不同的模型,可以觀察到,每個(gè)標(biāo)度和計(jì)算區(qū)域的最佳模型可能是不同的。此外,從上圖 3 中也可以看到這一點(diǎn)。例如,Evolved Transformer 似乎在微?。╰iny)到?。╯mall)的區(qū)域(下游)和標(biāo)準(zhǔn) Transformer 一樣表現(xiàn)很好,但是當(dāng)放大模型時(shí),這種情況迅速改變。研究者在 MoS-Transformer 也觀察到了這一點(diǎn),它在某些區(qū)域的表現(xiàn)明顯優(yōu)于普通的 Transformer ,但在其他區(qū)域則不然。

93bc863a-2c5b-11ed-ba43-dac502259ad0.png

每個(gè)模型的標(biāo)度律

下表 2 給出了多種情況下每個(gè)模型的擬合線性直線 α 的斜率。研究者通過繪制 F(FLOPs)、U (上游困惑度)、D (下游準(zhǔn)確率)和 P(參數(shù)量)得到了α。一般來說,α 描述了模型的縮放性,例如 α_F,U 根據(jù)上游性能繪制 FLOPs。唯一的例外是α_U,D,它是衡量上游和下游性能的度量,高的 α_U,D 值意味著向下游任務(wù)遷移的模型縮放更佳??傮w來說,α 值是一個(gè)度量,表示一個(gè)模型在縮放上的相對(duì)表現(xiàn)。

93d69c0a-2c5b-11ed-ba43-dac502259ad0.png

Scaling Protocols 是否以同樣的方式影響模型體系架構(gòu)?

下圖 4 展示了四個(gè)模型體系架構(gòu)(MoS-Transformer、Transformer、Evolved Transformer、LConv)中縮放深度的影響。

93fdafc0-2c5b-11ed-ba43-dac502259ad0.png

下圖 5 展示了在相同的四個(gè)體系架構(gòu)中縮放寬度的影響。首先,在上游(負(fù)對(duì)數(shù)困惑)曲線上可以注意到,雖然不同的架構(gòu)在絕對(duì)性能上有明顯的差異,但縮放趨勢(shì)仍然非常相似。在下游,除了 LConv 之外,深度縮放(上圖 4)在大多數(shù)體系架構(gòu)上的作用似乎是一樣的。同時(shí),相對(duì)于寬度縮放,似乎 Evolved Transformer 在應(yīng)用寬度縮放時(shí)會(huì)稍微好一點(diǎn)。值得注意的是,與寬度縮放相比,深度縮放對(duì)下游縮放的影響要大得多。

942e48f6-2c5b-11ed-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108199
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3522

    瀏覽量

    50452
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    6528

原文標(biāo)題:谷歌、DeepMind新研究:歸納偏置如何影響模型縮放?

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    同步電機(jī)失步淺析

    純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:同步電機(jī)失步淺析.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請(qǐng)第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 06-20 17:42

    一種基于正交與縮放變換的大模型量化方法

    近年來,大規(guī)模語言模型(Large Language Models, LLMs)在自然語言處理領(lǐng)域取得了革命性進(jìn)展。以 GPT 系列、LLaMA 等為代表的模型,通過千億級(jí)參數(shù)的復(fù)雜結(jié)構(gòu)展現(xiàn)出強(qiáng)大的語義理解和生成能力。
    的頭像 發(fā)表于 03-04 11:10 ?489次閱讀
    一種基于正交與<b class='flag-5'>縮放</b>變換的大<b class='flag-5'>模型</b>量化方法

    在i.MX RT處理器上使用PXP實(shí)現(xiàn)縮放和旋轉(zhuǎn)組合操作

    本文主要探討如何使用PXP實(shí)現(xiàn)縮放和旋轉(zhuǎn)組合操作,PXP是NXP推出的一個(gè)2D圖形加速器,主要完成對(duì)圖像的數(shù)據(jù)格式轉(zhuǎn)換、固定角度旋轉(zhuǎn)(90°,180°,270°),任意比例縮放、混色,移位以及翻轉(zhuǎn)等功能。運(yùn)行平臺(tái)為i.MX RT1170/1160/1060/1050/10
    的頭像 發(fā)表于 02-20 10:53 ?1168次閱讀
    在i.MX RT處理器上使用PXP實(shí)現(xiàn)<b class='flag-5'>縮放</b>和旋轉(zhuǎn)組合操作

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型基礎(chǔ)上,使用新的、特定任務(wù)相關(guān)的數(shù)據(jù)
    發(fā)表于 01-14 16:51

    【「大模型啟示錄」閱讀體驗(yàn)】對(duì)本書的初印象

    很高興能夠申請(qǐng)到《大模型啟示錄》一書,作為一名在讀大學(xué)生,我深感榮幸。在日常生活中,人工智能(AI)的應(yīng)用已經(jīng)變得無處不在,它不僅幫助我們完成一些簡(jiǎn)單的文本歸納任務(wù),還能在代碼調(diào)試中指出錯(cuò)誤,甚至
    發(fā)表于 12-16 14:05

    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件淺析

    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件淺析
    的頭像 發(fā)表于 11-13 01:03 ?762次閱讀
    技術(shù)科普 | 芯片設(shè)計(jì)中的LEF文件<b class='flag-5'>淺析</b>

    UCC14240EVM-052適用于需要正偏置單電源和正/負(fù)偏置雙電源的牽引逆變器柵極驅(qū)動(dòng)器IC偏置應(yīng)用

    電子發(fā)燒友網(wǎng)站提供《UCC14240EVM-052適用于需要正偏置單電源和正/負(fù)偏置雙電源的牽引逆變器柵極驅(qū)動(dòng)器IC偏置應(yīng)用.pdf》資料免費(fèi)下載
    發(fā)表于 11-11 15:05 ?0次下載
    UCC14240EVM-052適用于需要正<b class='flag-5'>偏置</b>單電源和正/負(fù)<b class='flag-5'>偏置</b>雙電源的牽引逆變器柵極驅(qū)動(dòng)器IC<b class='flag-5'>偏置</b>應(yīng)用

    Llama 3 模型訓(xùn)練技巧

    噪聲和異常值,確保數(shù)據(jù)的一致性和準(zhǔn)確性。 特征工程 :提取有助于模型學(xué)習(xí)的特征,可能包括特征選擇、特征轉(zhuǎn)換和特征編碼。 數(shù)據(jù)增強(qiáng) :對(duì)于圖像或文本數(shù)據(jù),可以通過旋轉(zhuǎn)、縮放、裁剪等方法增加數(shù)據(jù)多樣性。 歸一化/標(biāo)準(zhǔn)化 :將數(shù)據(jù)縮放
    的頭像 發(fā)表于 10-27 14:24 ?881次閱讀

    使用功率縮放

    電子發(fā)燒友網(wǎng)站提供《使用功率縮放庫.pdf》資料免費(fèi)下載
    發(fā)表于 10-18 10:24 ?0次下載
    使用功率<b class='flag-5'>縮放</b>庫

    DM642 EVM上的視頻縮放示例

    電子發(fā)燒友網(wǎng)站提供《DM642 EVM上的視頻縮放示例.pdf》資料免費(fèi)下載
    發(fā)表于 10-16 10:52 ?0次下載
    DM642 EVM上的視頻<b class='flag-5'>縮放</b>示例

    什么是偏置

    偏置器是一種重要的電子元件,廣泛應(yīng)用于射頻(RF)和微波電路中。它的主要功能是為放大器、混頻器和其他主動(dòng)元件提供適當(dāng)?shù)闹绷?b class='flag-5'>偏置電壓或電流,以確保這些元件在最佳工作狀態(tài)下運(yùn)行。本文將詳細(xì)介紹偏置器的基本概念、工作原理、類型、技術(shù)參
    的頭像 發(fā)表于 10-05 13:33 ?2115次閱讀

    OPA277共模電阻是250GΩ。電壓的正負(fù)是不是由偏置電流的方向決定的?

    對(duì)的。 Tina中的通用運(yùn)放模型與專用模型(如OPA277)有什么區(qū)別,為什么會(huì)出現(xiàn)這種現(xiàn)象?通用模型內(nèi)部哪些情況下,不能用通用模型替代專用模型
    發(fā)表于 09-18 08:49

    光電二極管輸入的偏置電流為何這么大?

    用的是光電二極管模型,輸入的偏置電流為何這么大,是固定的,但放大倍數(shù)如何求
    發(fā)表于 08-16 06:21

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開始學(xué)習(xí)《大語言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)、專業(yè)術(shù)語比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能理解書中
    發(fā)表于 07-25 14:33

    PN結(jié)正向偏置和反向偏置的原理

    PN結(jié)正向偏置和反向偏置是半導(dǎo)體器件(如二極管、晶體管等)中非常重要的兩種工作狀態(tài),它們的工作原理基于PN結(jié)獨(dú)特的電學(xué)性質(zhì)。以下將詳細(xì)闡述PN結(jié)正向偏置和反向偏置的原理,并結(jié)合相關(guān)數(shù)字
    的頭像 發(fā)表于 07-25 11:28 ?1.2w次閱讀