一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT系列模型演進(jìn)與啟示

jf_23871869 ? 來源:劉力 ? 作者:劉力 ? 2025-04-17 17:52 ? 次閱讀

作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

AI演進(jìn)的核心哲學(xué)》提到Google在2017年6月的《Attention is All You Need》論文中首次提出了一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer,OpenAI的科學(xué)家Alec Radford在讀完這篇論文后,使用BooksCorpus數(shù)據(jù)集(約1GB),并從Transformer中截取了Decoder部分進(jìn)行了生成式預(yù)訓(xùn)練(generative pre-training),然后再針對具體任務(wù)使用有標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行監(jiān)督微調(diào),結(jié)果發(fā)現(xiàn)模型的性能還不錯(cuò),在 12 項(xiàng)任務(wù)中的 9 項(xiàng)顯著超越了針對特定任務(wù)設(shè)計(jì)的競對模型,達(dá)到了當(dāng)前最佳水平,并于2018年6月發(fā)表了文章《Improving Language Understanding by Generative Pre-Training》,標(biāo)志著GPT系列模型從此誕生了。GPT就是Generative Pre-Training的首字母縮寫,GPT-1模型包含1.17億參數(shù)。

鏈接:

《Attention is All You Need》:
https://arxiv.org/pdf/1706.03762
《Improving Language Understanding by Generative Pre-Training》:
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf


一,GPT-1~GPT-2: 驗(yàn)證性的演進(jìn)


OpenAI的首席科學(xué)家Ilya Sutskever看到GPT-1的結(jié)果后,非常興奮,他認(rèn)為這是一個(gè)非常關(guān)鍵的可以通向AGI(通用人工智能)的技術(shù),從此,OpenAI便在GPT-1基礎(chǔ)上開始堅(jiān)定地執(zhí)行“Scale Up”戰(zhàn)略 -- 通過增加模型參數(shù)、訓(xùn)練數(shù)據(jù)和計(jì)算能力,推動(dòng) GPT 系列模型和訓(xùn)練范式不斷演進(jìn)。

隨后,OpenAI迅速加大了投入開始研發(fā)GPT-2。GPT-2的目標(biāo)是探索更大規(guī)模的模型能否在沒有任務(wù)特定訓(xùn)練數(shù)據(jù)的情況下,僅通過預(yù)訓(xùn)練就能在多種任務(wù)上表現(xiàn)出色,即所謂的“零樣本”(Zero-shot)能力。為此,OpenAI構(gòu)建了一個(gè)更大、更多樣化的WebText數(shù)據(jù)集(約40GB),用更大算力(多塊NVIDIA V100 32GB卡)完成了更大參數(shù)模型的預(yù)訓(xùn)練。

GPT-2模型參數(shù)有4個(gè)版本:Small版有1.17億參數(shù),對應(yīng)原始的GPT-1;Medium版有3.45億參數(shù),對應(yīng)競品BERT-large;Large版有7.62億參數(shù);XL版有15億參數(shù)。GPT-2首次系統(tǒng)性展示了無需微調(diào)即可適應(yīng)多任務(wù)的能力,在8 個(gè)測試數(shù)據(jù)集中獲得了7個(gè)當(dāng)下最優(yōu)的成果,證明了大規(guī)模預(yù)訓(xùn)練模型的強(qiáng)大潛力和 “通用語言模型” 在多任務(wù)場景中的可行性。

OpenAI在2019年2月發(fā)表了文章《Language Models are Unsupervised Multitask Learners》,還開源了GPT-2的代碼: https://github.com/openai/gpt-2和部分?jǐn)?shù)據(jù)集:https://github.com/openai/gpt-2-output-dataset,成為GPT系列模型中唯一一個(gè)開源模型。

鏈接:
《Language Models are Unsupervised Multitask Learners》:
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf


二,GPT3:更加激進(jìn)的演進(jìn)


GPT-2驗(yàn)證了“Scale Up”戰(zhàn)略的有效性后,OpenAI開始更加激進(jìn)的Scale Up。GPT-3的參數(shù)量達(dá)到了驚人的1750億,比GPT-2的XL版本提升了100多倍。預(yù)訓(xùn)練數(shù)據(jù)集也更為龐大,混合了包括Common Crawl(經(jīng)過濾)、WebText2、Books1、Books2和Wikipedia在內(nèi)的的數(shù)據(jù)集(約300B Tokens)。

GPT-3不僅在零樣本任務(wù)上表現(xiàn)出色,更重要的是展示了強(qiáng)大的“少樣本”(Few-shot)甚至“單樣本”(One-shot)學(xué)習(xí)能力,這意味著只需要在提示詞(Prompt)中給出少量任務(wù)示例,模型就能理解并執(zhí)行新任務(wù),而無需重新訓(xùn)練或微調(diào)模型參數(shù)。這種“上下文學(xué)習(xí)”(In-context Learning)能力是GPT-3的核心突破,它使得模型更加通用和靈活,能夠處理翻譯、問答、寫代碼、作詩、進(jìn)行簡單推理等各種任務(wù),極大地推動(dòng)了Decoder-Only架構(gòu)的大語言模型的研究和應(yīng)用浪潮。

三,規(guī)模定律與能力涌現(xiàn)


在GPT系列模型演進(jìn)的過程中,OpenAI在2020年1月發(fā)表了文章《Scaling Laws for Neural Language Models》,首次系統(tǒng)性提出的語言模型的“規(guī)模定律(Scaling Laws)”,揭示了模型性能與模型參數(shù)量、訓(xùn)練數(shù)據(jù)量和計(jì)算資源規(guī)模呈指數(shù)級線性相關(guān)。同年5月,OpenAI發(fā)表了文章《Language Models are Few-Shot Learners》介紹GPT-3,讓科技界都開始相信在Decoder-Only架構(gòu)上是能“Scale-Up”的。

隨后,Google也加入了Decoder-Only架構(gòu)的陣營,在2022年4月發(fā)布了5400億參數(shù)的PaLM模型,并證明了隨著參數(shù)提升,Decoder-Only架構(gòu)的模型能力在大多數(shù)任務(wù)場景中都高于前期最優(yōu)方法。同年6月,Google發(fā)表了文章《Emergent Abilities of Large Language Models》,首次系統(tǒng)性地提出了大語言模型的“能力涌現(xiàn)(Emergent Abilities)”現(xiàn)象,即大語言模型在參數(shù)規(guī)模突破臨界閾值后,突現(xiàn)的不可預(yù)測的新能力?,這類能力在小規(guī)模模型上無法出現(xiàn)。

鏈接:
《Scaling Laws for Neural Language Models》:
https://arxiv.org/pdf/2001.08361
《Language Models are Few-Shot Learners》:
https://arxiv.org/pdf/2005.14165


四,啟示1:科研團(tuán)隊(duì)可以從一個(gè)小規(guī)模參數(shù)的模型開始


GPT系列模型的演進(jìn),以及科技界在Decoder-Only架構(gòu)上的探索,再次證明了Richard S. Sutton提出的哲學(xué)思想:使用通用方法,然后借助計(jì)算能力Scale Up。由于訓(xùn)練大規(guī)模參數(shù)的模型成本非常高,例如,公開資料顯示Llama3 405B參數(shù)模型的訓(xùn)練成本約為6000萬美金,所以科研團(tuán)隊(duì)可以先在一個(gè)小規(guī)模參數(shù)的模型上驗(yàn)證其能力,然后再Scale up。

DeepSeek團(tuán)隊(duì)也受此啟發(fā),在2024年初,先從16B參數(shù)規(guī)模開始,發(fā)布了DeepSeek-MoE v1;接著在2024年中,把參數(shù)規(guī)模擴(kuò)展至145B,發(fā)布了DeepSeek-MoE v2; 到DeepSeek-MoE v3時(shí),參數(shù)規(guī)模到671B。DeepSeek的Scale Up的成功,也再次證明了《AI演進(jìn)的核心哲學(xué)》。

五,啟示2:個(gè)人初學(xué)者可以把GPT-2作為學(xué)習(xí)起點(diǎn)


從學(xué)習(xí)的角度,對個(gè)人初學(xué)者來說,本文認(rèn)為GPT-2是最佳的Decoder-Only架構(gòu)模型的學(xué)習(xí)起點(diǎn):

1. GPT-2算是GPT系列模型真正的起點(diǎn)(GPT-1可以算Decoder-Only架構(gòu)的技術(shù)驗(yàn)證PoC)。

2. GPT-2的模型參數(shù)規(guī)模適中,能讓讀者成功實(shí)現(xiàn)完整的預(yù)訓(xùn)練過程,且花費(fèi)不大。

3. GPT-2是GPT系列中唯一的開源模型,有標(biāo)準(zhǔn)代碼實(shí)現(xiàn)可以借鑒。

4. 通過動(dòng)手編寫GPT-2模型并完成預(yù)訓(xùn)練,可以完整學(xué)到Transformer架構(gòu)的大語言模型的核心知識

若你對更多的大語言模型的演進(jìn)感興趣,可以進(jìn)一步閱讀《A Survey of Large Language Models》。

鏈接:

《A Survey of Large Language Models》:
https://arxiv.org/pdf/2303.18223


如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內(nèi)容請,關(guān)注“算力魔方?”!

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    15862
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1196

    瀏覽量

    8291
收藏 人收藏

    評論

    相關(guān)推薦

    【「大模型啟示錄」閱讀體驗(yàn)】對本書的初印象

    很高興能夠申請到《大模型啟示錄》一書,作為一名在讀大學(xué)生,我深感榮幸。在日常生活中,人工智能(AI)的應(yīng)用已經(jīng)變得無處不在,它不僅幫助我們完成一些簡單的文本歸納任務(wù),還能在代碼調(diào)試中指出錯(cuò)誤,甚至
    發(fā)表于 12-16 14:05

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    在客服領(lǐng)域是大模型落地場景中最多的,也是最容易實(shí)現(xiàn)的。本身客服領(lǐng)域的特點(diǎn)就是問答形式,大模型接入難度低。今天跟隨《大模型啟示錄 》這本書,學(xué)習(xí)大模型
    發(fā)表于 12-17 16:53

    【「大模型啟示錄」閱讀體驗(yàn)】對大模型更深入的認(rèn)知

    閱讀《大模型啟示錄》這本書,我得說,它徹底顛覆了我對大模型的理解。作為一個(gè)經(jīng)常用KIMI和豆包這類AI工具來完成作業(yè)、整理資料的大學(xué)生,我原以為大模型就是這些工具背后的技術(shù)。但這本書讓
    發(fā)表于 12-20 15:46

    【「大模型啟示錄」閱讀體驗(yàn)】營銷領(lǐng)域大模型的應(yīng)用

    今天跟隨「大模型啟示錄」這本書,學(xué)習(xí)在營銷領(lǐng)域應(yīng)用大模型。 大模型通過分析大量的消費(fèi)者數(shù)據(jù),包括購買歷史、瀏覽記錄、社交媒體互動(dòng)等,能夠識別消費(fèi)者的偏好和行為模式。這種分析能力有助于企
    發(fā)表于 12-24 12:48

    GPT系列的“高仿” 最大可達(dá)GPT-3大小 自主訓(xùn)練

    雖然GPT-3沒有開源,卻已經(jīng)有人在復(fù)刻GPT系列模型了。 例如,慕尼黑工業(yè)大學(xué)的Connor Leahy,此前用200個(gè)小時(shí)、6000RMB,復(fù)現(xiàn)了
    的頭像 發(fā)表于 02-13 09:24 ?2979次閱讀

    超越GPT 3.5的小型語言模型案例概述

    ChatGPT 是在 GPT-3.5 系列模型的基礎(chǔ)上微調(diào)而來的,我們看到很多研究也在緊隨其后緊追慢趕,但是,與 ChatGPT 相比,他們的新研究效果到底有多好?
    發(fā)表于 02-27 11:44 ?981次閱讀

    GPT/GPT-2/GPT-3/InstructGPT進(jìn)化之路

    在預(yù)訓(xùn)練階段,GPT 選擇 transformer 的 decoder 部分作為模型的主要模塊,transformer 是 2017年 google 提出的一種特征抽取模型GPT
    的頭像 發(fā)表于 03-03 11:14 ?4114次閱讀

    AI大語言模型的原理、演進(jìn)及算力測算專題報(bào)告

    GPT是基于Transformer架構(gòu)的大語言模型,近年迭代演進(jìn)迅速。構(gòu)建語言模型是自然語言處理中最基本和最重要的任務(wù)之一。GPT是基于Tr
    的頭像 發(fā)表于 04-28 10:01 ?1291次閱讀
    AI大語言<b class='flag-5'>模型</b>的原理、<b class='flag-5'>演進(jìn)</b>及算力測算專題報(bào)告

    華為盤古大模型GPT的區(qū)別

    華為盤古大模型GPT的區(qū)別? 隨著人工智能技術(shù)的不斷進(jìn)步,機(jī)器學(xué)習(xí)領(lǐng)域的研究也越來越深入。在這其中,以自然語言處理技術(shù)為主要研究方向的人工智能算法受到了廣泛關(guān)注。在這個(gè)領(lǐng)域中,華為盤古大模型
    的頭像 發(fā)表于 08-30 17:38 ?6000次閱讀

    盤古大模型GPT3有哪些不同

    盤古大模型GPT3有哪些不同 盤古大模型GPT-3都是人工智能領(lǐng)域邁出的重要一步,它們的發(fā)展對于人工智能領(lǐng)域的發(fā)展都起到了重要的推動(dòng)作用。但是,盤古大
    的頭像 發(fā)表于 08-30 18:28 ?2572次閱讀

    全球最強(qiáng)大模型易主:GPT-4被超越,Claude 3系列嶄露頭角

    近日,人工智能領(lǐng)域迎來了一場革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語言能力等關(guān)鍵指標(biāo)上展現(xiàn)出卓越性能,成功超越了此前被廣泛認(rèn)為是
    的頭像 發(fā)表于 03-05 09:42 ?817次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標(biāo)桿

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI
    的頭像 發(fā)表于 03-05 09:49 ?867次閱讀

    全球最強(qiáng)大模型易主,GPT-4被超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面全面超越了包括
    的頭像 發(fā)表于 03-05 09:58 ?802次閱讀

    GPT的定義和演進(jìn)歷程

    GPT,全稱Generative Pretrained Transformer,是OpenAI公司在自然語言處理(NLP)領(lǐng)域的一項(xiàng)重大創(chuàng)新。這一模型不僅推動(dòng)了AI技術(shù)的邊界,還深刻影響了我們與機(jī)器交互的方式。本文將從GPT的定
    的頭像 發(fā)表于 07-10 10:41 ?2397次閱讀

    OpenAI即將推出GPT-5模型

    OpenAI首席執(zhí)行官奧爾特曼近日宣布了一項(xiàng)重要消息:OpenAI將在今年未來幾個(gè)月內(nèi)推出全新的GPT-5模型。這一消息引起了業(yè)界的廣泛關(guān)注和期待。 據(jù)了解,GPT-5模型將整合Ope
    的頭像 發(fā)表于 02-13 11:21 ?469次閱讀