一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Scaling Law大模型設(shè)計(jì)實(shí)操案例

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 2023-11-22 16:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

來自:NLP工作站

nice!這是一個(gè)快速了解LLM時(shí)代下最新研究的學(xué)術(shù)分享平臺

今天給大家?guī)硪黄督馕龃竽P椭械腟caling Law》,來自知乎@nghuyong

在大模型的研發(fā)中,通常會有下面一些需求:

計(jì)劃訓(xùn)練一個(gè)10B的模型,想知道至少需要多大的數(shù)據(jù)?

收集到了1T的數(shù)據(jù),想知道能訓(xùn)練一個(gè)多大的模型?

老板準(zhǔn)備1個(gè)月后開發(fā)布會,能用的資源是100張A100,那應(yīng)該用多少數(shù)據(jù)訓(xùn)一個(gè)多大模型最終效果最好?

老板對現(xiàn)在10B的模型不滿意,想知道擴(kuò)大到100B模型的效果能提升到多少?

以上這些問題都可以基于Scaling Law的理論進(jìn)行回答。本文是閱讀了一系列caling Law的文章后的整理和思考,包括Scaling Law的概念和推導(dǎo)以及反Scaling Law的場景,不當(dāng)之處,歡迎指正。

核心結(jié)論

大模型的Scaling Law是OpenAI在2020年提出的概念[1],具體如下:

對于Decoder-only的模型,計(jì)算量(Flops), 模型參數(shù)量, 數(shù)據(jù)大小(token數(shù)),三者滿足: 。(推導(dǎo)見本文最后)

模型的最終性能「主要與」計(jì)算量,模型參數(shù)量和數(shù)據(jù)大小三者相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。

ec247598-8877-11ee-939d-92fbcf53809c.png

固定模型的總參數(shù)量,調(diào)整層數(shù)/深度/寬度,不同模型的性能差距很小,大部分在2%以內(nèi)

對于計(jì)算量,模型參數(shù)量和數(shù)據(jù)大小,當(dāng)不受其他兩個(gè)因素制約時(shí),模型性能與每個(gè)因素都呈現(xiàn)「冪律關(guān)系」

ec517372-8877-11ee-939d-92fbcf53809c.png

basic

為了提升模型性能,模型參數(shù)量和數(shù)據(jù)大小需要同步放大,但模型和數(shù)據(jù)分別放大的比例還存在爭議。

Scaling Law不僅適用于語言模型,還適用于其他模態(tài)以及跨模態(tài)的任務(wù)[4]:

ec7ba9c6-8877-11ee-939d-92fbcf53809c.png

multi_modal

這里橫軸單位為PF-days: 如果每秒鐘可進(jìn)行次運(yùn)算,就是1 peta flops,那么一天的運(yùn)算就是,這個(gè)算力消耗被稱為1個(gè)petaflop/s-day。

核心公式

ecacd2e4-8877-11ee-939d-92fbcf53809c.png

第一項(xiàng)是指無法通過增加模型規(guī)模來減少的損失,可以認(rèn)為是數(shù)據(jù)自身的熵(例如數(shù)據(jù)中的噪音)

第二項(xiàng)是指能通過增加計(jì)算量來減少的損失,可以認(rèn)為是模型擬合的分布與實(shí)際分布之間的差。

根據(jù)公式,增大(例如計(jì)算量),模型整體loss下降,模型性能提升;伴隨趨向于無窮大,模型能完美擬合數(shù)據(jù)的真實(shí)分布,讓第二項(xiàng)逼近0,整體趨向于

大模型中的Scaling Law

GPT4

下圖是GPT4報(bào)告[5]中的Scaling Law曲線,計(jì)算量和模型性能滿足冪律關(guān)系

ecbfe708-8877-11ee-939d-92fbcf53809c.png

橫軸是歸一化之后的計(jì)算量,假設(shè)GPT4的計(jì)算量為1?;?0,000倍小的計(jì)算規(guī)模,就能預(yù)測最終GPT4的性能。

縱軸是"Bits for words", 這也是交叉熵的一個(gè)單位。在計(jì)算交叉熵時(shí),如果使用以 2 為底的對數(shù),交叉熵的單位就是 "bits per word",與信息論中的比特(bit)概念相符。所以這個(gè)值越低,說明模型的性能越好。

Baichuan2

下圖是Baichuan2[6]技術(shù)報(bào)告中的Scaling Law曲線。基于10M到3B的模型在1T數(shù)據(jù)上訓(xùn)練的性能,可預(yù)測出最后7B模型和13B模型在2.6T數(shù)據(jù)上的性能

ecf32ae6-8877-11ee-939d-92fbcf53809c.png

MindLLM

下圖是MindLLM[7]技術(shù)報(bào)告中的Scaling Law曲線?;?0M到500M的模型在10B數(shù)據(jù)上訓(xùn)練的性能,預(yù)測出最后3B模型在500B數(shù)據(jù)上的性能。

ed17ba8c-8877-11ee-939d-92fbcf53809c.png

Scaling Law實(shí)操: 計(jì)算效率最優(yōu)

根據(jù)冪律定律,模型的參數(shù)固定,無限堆數(shù)據(jù)并不能無限提升模型的性能,模型最終性能會慢慢趨向一個(gè)固定的值。

ed422768-8877-11ee-939d-92fbcf53809c.png

如圖所示,如果模型的參數(shù)量為(圖中紫色的線),在數(shù)量達(dá)到,模型基本收斂。所以在數(shù)據(jù)量達(dá)到后,繼續(xù)增加數(shù)據(jù)產(chǎn)生的計(jì)算量,沒有同樣計(jì)算量下提升模型參數(shù)量帶來的收益大(「計(jì)算效率更優(yōu)」)。根據(jù),可以進(jìn)一步轉(zhuǎn)換成模型參數(shù)與計(jì)算量的關(guān)系,即: 模型參數(shù)為,在計(jì)算量為 Flops,即 PF-days時(shí)基本收斂。也就是右圖中紫色線的拐點(diǎn)。

按照上面的思路,下面進(jìn)行Scaling Law的實(shí)操

首先準(zhǔn)備充足的數(shù)據(jù)(例如1T),設(shè)計(jì)不同模型參數(shù)量的小模型(例如0.001B - 1B),獨(dú)立訓(xùn)練每個(gè)模型,每個(gè)模型都訓(xùn)練到基本收斂(假設(shè)數(shù)據(jù)量充足)。根據(jù)訓(xùn)練中不同模型的參數(shù)和數(shù)據(jù)量的組合,收集計(jì)算量與模型性能的關(guān)系。然后可以進(jìn)一步獲得「計(jì)算效率最優(yōu)」時(shí),即同樣計(jì)算量下性能最好的模型規(guī)模和數(shù)據(jù)大小的組合,模型大小與計(jì)算量的關(guān)系,以及數(shù)據(jù)大小與計(jì)算量的關(guān)系。

ed64442e-8877-11ee-939d-92fbcf53809c.png

如圖所示,根據(jù)左圖可以看到計(jì)算量與模型性能呈現(xiàn)冪律關(guān)系(可以認(rèn)為數(shù)據(jù)和模型都不受限制),根據(jù)中圖和右圖,可以發(fā)現(xiàn),即計(jì)算效率最優(yōu)時(shí),模型的參數(shù)與計(jì)算量的冪次成線性關(guān)系,數(shù)據(jù)量的大小也與計(jì)算量的冪次成線性關(guān)系。

根據(jù),可以推算出,但是分別是多少存在分歧。

OpenAI[1]認(rèn)為模型規(guī)模更重要,即,而DeepMind在Chinchilla工作[2]和Google在PaLM工作[3]中都驗(yàn)證了,即模型和數(shù)據(jù)同等重要。

所以假定計(jì)算量整體放大10倍,OpenAI認(rèn)為模型參數(shù)更重要,模型應(yīng)放大 (5.32)倍,數(shù)據(jù)放大 (1.86)倍;后來DeepMind和Google認(rèn)為模型參數(shù)量與數(shù)據(jù)同等重要,兩者都應(yīng)該分別放大 (3.16)倍。

ed793ef6-8877-11ee-939d-92fbcf53809c.png

例如在PaLM的實(shí)驗(yàn)中,計(jì)算量從放大10倍到, 模型參數(shù)提升了3.2倍,3.35B->10.7B。

具體最好在自己的數(shù)據(jù)上做實(shí)驗(yàn)來獲得你場景下的和。

LLaMA: 反Scaling Law的大模型

假設(shè)我們遵循「計(jì)算效率最優(yōu)」來研發(fā)LLM,那么根據(jù)Scaling Law,給定模型大小,可以推算出最優(yōu)的計(jì)算量,進(jìn)一步根據(jù)最優(yōu)計(jì)算量就能推算出需要的token數(shù)量,然后訓(xùn)練就行。

但是「計(jì)算效率最優(yōu)」這個(gè)觀點(diǎn)是針對「訓(xùn)練階段」而言的,并不是「推理階段」

Meta在LLaMA[8]的觀點(diǎn)是:給定一個(gè)模型的目標(biāo)性能,并不需要用最優(yōu)的計(jì)算效率在「最快」時(shí)間訓(xùn)練好模型,而應(yīng)該在更大規(guī)模的數(shù)據(jù)上,訓(xùn)練一個(gè)相對「更小」模型,這樣的模型在推理階段的成本更低,盡管訓(xùn)練階段的效率不是最優(yōu)的(同樣的算力其實(shí)能獲得更優(yōu)的模型,但是模型尺寸也會更大)。所以盡管根據(jù)Scaling Law,10B模型只需要200B的數(shù)據(jù),但是作者發(fā)現(xiàn)7B的模型性能在1T的數(shù)據(jù)后還能繼續(xù)提升。

eda49d4e-8877-11ee-939d-92fbcf53809c.png

所以LLaMA工作的重點(diǎn)是訓(xùn)練一系列語言模型,通過使用更多的數(shù)據(jù),讓模型在「有限推理資源下有最佳的性能」。

具體而言,確定模型尺寸后,Scaling Law給到的只是最優(yōu)的數(shù)據(jù)供給,或者說是一個(gè)「至少」的數(shù)據(jù)量,實(shí)際上觀察在各個(gè)指標(biāo)上的性能表現(xiàn),只要還在繼續(xù)增長,就可以持續(xù)增加訓(xùn)練數(shù)據(jù)。

edd551d2-8877-11ee-939d-92fbcf53809c.png

計(jì)算量、模型和數(shù)據(jù)大小的關(guān)系推導(dǎo)

對于Decoder-only的模型,計(jì)算量(Flops), 模型參數(shù)量(除去Embedding部分), 數(shù)據(jù)大小(token數(shù)), 三者的關(guān)系為:

推導(dǎo)如下,記模型的結(jié)構(gòu)為:

decoder層數(shù):

attention 隱層維度:

attention feedforward層維度: , 一般來說

首先推導(dǎo)模型的參數(shù)量(忽略embedding,norm和bias)計(jì)算如下:

transformer每層包括: self-attetion 和 MLP 兩個(gè)部分:

self-attention的參數(shù)為,每個(gè)矩陣的維度均為,整體參數(shù)量:

MLP的層數(shù)的參數(shù)為,整體參數(shù)量:

所以每層的參數(shù)量為: ,全部的層的參數(shù)量為: ,即

繼續(xù)推導(dǎo)模型的前向推理的計(jì)算量:

計(jì)算量的單位是FLOPs,floating point operations, 對于矩陣,相乘的計(jì)算量為,一次加法一次乘法。

假設(shè)Decoder層的輸入, 為batch size,為序列長度, 為模型維度。

self-attention部分的計(jì)算:

輸入線性層: ,計(jì)算量為:

atention計(jì)算: ,計(jì)算量為:

socre與V的計(jì)算: ,計(jì)算量為:

輸出線性層: ,計(jì)算量為:

MLP部分的計(jì)算

升維: ,計(jì)算量為:

降維: ,計(jì)算量為:

所以整個(gè)decoder層的計(jì)算量為:,全部層為:

反向傳播計(jì)算量是正向的2倍,所以全部的計(jì)算量為:

平均每個(gè)token的計(jì)算量為()

所以對于全部包含個(gè)token的數(shù)據(jù)集:

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10787
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16083
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1207

    瀏覽量

    8903
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3138

    瀏覽量

    4059

原文標(biāo)題:解析大模型中的Scaling Law

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    實(shí)文檔】在智能硬件的大模型語音交互流程中接入RAG知識庫

    就不講太多了,這里實(shí)用CSK6大模型開發(fā)板接入自建的空調(diào)產(chǎn)品手冊知識庫演示接入過程,只要對照文檔步驟就可以完成操作。操作過程中遇到問題,也可以參考后半部分的排錯(cuò)流程來定位和解決問題。
    發(fā)表于 09-29 17:12

    單片機(jī)考題經(jīng)典實(shí)動畫播放。

    單片機(jī)考題經(jīng)典實(shí)動畫播放,值得收藏!
    發(fā)表于 08-22 11:12

    工業(yè)機(jī)器人打磨去毛刺實(shí)工作站介紹

    ZNL-DM06型 工業(yè)機(jī)器人打磨去毛刺實(shí)工作站一、概述ZNL-DM06型 工業(yè)機(jī)器人打磨去毛刺實(shí)工作站以真實(shí)工廠應(yīng)用要求為基礎(chǔ),優(yōu)化功能設(shè)計(jì),提高系統(tǒng)靈活度,融入
    發(fā)表于 07-01 09:12

    電工操作實(shí)

    ZN-890Q電工操作實(shí)柜(單面雙組型)一、概述ZN-890Q電工操作實(shí)柜(單面雙組型)由鋼板作制作的多功能安裝板(網(wǎng)孔板)實(shí)訓(xùn)臺和電源
    發(fā)表于 07-02 07:14

    工業(yè)機(jī)器人焊接實(shí)工作站分享

    ZNL-HJ06型 工業(yè)機(jī)器人焊接實(shí)工作站一、概述ZNL-HJ06型 工業(yè)機(jī)器人焊接實(shí)工作站主要開展焊接技術(shù)培訓(xùn),可滿足學(xué)生動手能力的強(qiáng)化訓(xùn)練,還可作為高級工、技師能力提升的
    發(fā)表于 07-02 06:55

    工業(yè)機(jī)器人焊接實(shí)工作站有哪些特點(diǎn)

    ZNL-HJ06型工業(yè)機(jī)器人焊接實(shí)工作站是什么?ZNL-HJ06型工業(yè)機(jī)器人焊接實(shí)工作站有哪些特點(diǎn)?
    發(fā)表于 09-28 07:39

    IIC模塊的實(shí)類型是什么

    **52單片機(jī)學(xué)習(xí)之路(1)IIC模塊的理解與實(shí)類型**1. IIC模塊程序void IIC_Start(void); **IIC總線開始信號**void IIC_Stop(void
    發(fā)表于 12-02 06:09

    無線路由器設(shè)置實(shí)步驟詳解

    無線路由器設(shè)置實(shí)步驟詳解
    發(fā)表于 06-24 17:13 ?4093次閱讀

    用STM32Cube.AI部署ONNX模型實(shí)示例:風(fēng)扇堵塞檢測

    用STM32Cube.AI 部署ONNX 模型實(shí)示例:風(fēng)扇堵塞檢測
    的頭像 發(fā)表于 09-28 16:25 ?2960次閱讀
    用STM32Cube.AI部署ONNX<b class='flag-5'>模型</b><b class='flag-5'>實(shí)</b><b class='flag-5'>操</b>示例:風(fēng)扇堵塞檢測

    【RK3399案例實(shí)資料包】

    RK3399案例實(shí)資料包
    發(fā)表于 06-25 11:52 ?184次下載

    模型Scaling Law的概念和推導(dǎo)

    對于Decoder-only的模型,計(jì)算量(Flops), 模型參數(shù)量, 數(shù)據(jù)大小(token數(shù)),三者滿足:。(推導(dǎo)見本文最后) 模型的最終性能主要與計(jì)算量,模型參數(shù)量和數(shù)據(jù)大
    的頭像 發(fā)表于 11-29 14:28 ?3220次閱讀
    大<b class='flag-5'>模型</b>的<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>的概念和推導(dǎo)

    張宏江深度解析:大模型技術(shù)發(fā)展的八大觀察點(diǎn)

    在大模型的發(fā)展史上,Scaling Law(規(guī)模律)發(fā)揮了核心作用,它是推動模型性能持續(xù)提升的主要動力。Scaling
    發(fā)表于 03-14 10:41 ?433次閱讀
    張宏江深度解析:大<b class='flag-5'>模型</b>技術(shù)發(fā)展的八大觀察點(diǎn)

    浪潮信息趙帥:開放計(jì)算創(chuàng)新 應(yīng)對Scaling Law挑戰(zhàn)

    Scaling Law帶來的AI基礎(chǔ)設(shè)施Scale up和Scale out的挑戰(zhàn),數(shù)據(jù)中心需要以開放創(chuàng)新加速算力系統(tǒng)、管理和基礎(chǔ)設(shè)施的全向Scale進(jìn)程,推動AI產(chǎn)業(yè)的創(chuàng)新發(fā)展。 ? 開源開放推動人工智能創(chuàng)新與算力生態(tài)的全面發(fā)展 生成式人工智能的飛躍式進(jìn)步正在加速智能時(shí)
    的頭像 發(fā)表于 08-15 16:02 ?500次閱讀
    浪潮信息趙帥:開放計(jì)算創(chuàng)新 應(yīng)對<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>挑戰(zhàn)

    2025年:大模型Scaling Law還能繼續(xù)嗎

    ? OpenAI 最近推出了其新的推理模型 o3,該模型在 ARC 數(shù)據(jù)集上大幅超越了之前的最佳性能(SOTA),并在具有挑戰(zhàn)性的 FrontierMath 數(shù)據(jù)集上取得了令人驚嘆的結(jié)果。很明顯,該
    的頭像 發(fā)表于 01-15 14:32 ?516次閱讀
    2025年:大<b class='flag-5'>模型</b><b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>還能繼續(xù)嗎

    數(shù)字調(diào)音臺實(shí)講解

    電子發(fā)燒友網(wǎng)站提供《數(shù)字調(diào)音臺實(shí)講解.pdf》資料免費(fèi)下載
    發(fā)表于 03-26 14:18 ?3次下載