一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI演進(jìn)的核心哲學(xué):使用通用方法,然后Scale Up!

jf_23871869 ? 來源:劉力 ? 作者:劉力 ? 2025-04-09 14:31 ? 次閱讀

作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

一,AI演進(jìn)的核心哲學(xué):通用方法 + 計算能力


Richard S. Sutton在《The Bitter Lesson》一文中提到,“回顧AI研究歷史,得到一個AI發(fā)展的重要歷史教訓(xùn):利用計算能力的通用方法最終是最有效的,而且優(yōu)勢明顯”。核心原因是摩爾定律,即單位計算成本持續(xù)指數(shù)級下降。大多數(shù) AI 研究假設(shè)可用計算資源是固定的,所以依賴人類知識來提高性能,但長期來看,計算能力的大幅提升才是推進(jìn)AI演進(jìn)的關(guān)鍵。

《The Bitter Lesson》原文鏈接:
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

wKgZPGf2FAWAFpHlAAIkD2BE5d4176.png


把不同時期的AI代表算法和典型計算硬件放到一起,可以看出,依賴人類知識的算法(比如手工設(shè)計規(guī)則)在某段時期內(nèi)效果暫時領(lǐng)先,但隨著計算能力的發(fā)展,會被 “更通用的方法 + 更強(qiáng)的計算” 碾壓。計算機(jī)視覺和自然語言處理的算法演進(jìn),都符合這個規(guī)律。

計算機(jī)視覺:在CPU時代,手工特征(SIFT/HOG) + SVM的方法暫時領(lǐng)先。到了GPU時代,基于更通用的方法(CNN) + 更強(qiáng)的計算(GTX-580)的AlexNet在2012年,以15.3%的Top-5 錯誤率碾壓了所有基于人類手工提取特征的方法。在多卡并行時代,Transformer擯棄了CNN注入的人類知識(認(rèn)為相鄰像素關(guān)聯(lián)性強(qiáng)),使用自身的自注意力能力自行捕捉全局依賴,使得通用目標(biāo)識別水平更上一層樓,碾壓CNN。

自然語言處理:在CPU時代,最初使用n-gram方法學(xué)習(xí)單詞分布,以此通過前一個字符來預(yù)測后一個字符(單詞分布決定字符關(guān)聯(lián)就是人類知識)。n-gram的記憶能力有限,能生成一定長度的語句,但在幾十個詞規(guī)模的生成能力就不行了。到了GPU時代,更通用的方法RNN,可以逐個閱讀單詞的同時更新思維狀態(tài),具備了短期記憶能力;LSTM在RNN基礎(chǔ)上增加了長期記憶能力,能在百詞內(nèi)較好的生成內(nèi)容,但在幾百詞的生成規(guī)模上,就會逐漸偏離主題。在多卡并行時代,Transformer擯棄了RNN注入的人類知識(時序依賴關(guān)系是關(guān)鍵,當(dāng)前狀態(tài)依賴歷史狀態(tài)),使用自身的自注意力能力自行捕捉長程依賴,其生成能力在多個領(lǐng)域能超過人類水平,碾壓RNN。

AI 的未來屬于通用方法(搜索和學(xué)習(xí))+ 無限提升的計算能力,而不是人類對具體問題的 “聰明解法”。越通用的人工智能,方法應(yīng)該越簡單,建模時應(yīng)該越少人類知識的假設(shè)才對。我們應(yīng)該讓 AI 自己通過計算和數(shù)據(jù)去發(fā)現(xiàn)規(guī)律,而不是教它 “我們認(rèn)為正確”的東西。

二,Transformer: 更加通用的神經(jīng)網(wǎng)絡(luò)架構(gòu)


《Attention is All You Need》在2017年首次提出了一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer架構(gòu),它完全基于注意力機(jī)制,從全局角度“觀察和學(xué)習(xí)”數(shù)據(jù)的重要特征,相比循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),注入的人類先驗知識更少,方法更通用:

CNN注入了相鄰像素關(guān)聯(lián)性強(qiáng)的人類知識,導(dǎo)致CNN無法處理不具備該假設(shè)的信息,例如:自然語言。

RNN假設(shè)了“時序依賴關(guān)系”是關(guān)鍵,當(dāng)前狀態(tài)依賴歷史狀態(tài)(通過隱藏狀態(tài)傳遞信息),導(dǎo)致RNN無法處理不具備該假設(shè)的信息,例如:圖像。

Transformer使用自身的自注意力能力自行捕捉數(shù)據(jù)中的關(guān)系,即通過自注意力能力從全局角度“觀察和學(xué)習(xí)”數(shù)據(jù)的重要特征。只要信息能從全局角度被觀察和學(xué)習(xí),那么該信息就能被Transformer處理。文本、圖像、聲音等信息,都滿足該要求,所以,都能統(tǒng)一到Transformer架構(gòu)上進(jìn)行處理。各種模態(tài)信息在進(jìn)入Transformer前,只需要把信息Token化,即切成一個個小塊就行。

wKgZPGf2E-yAHCBIAACykTI5pws739.png

《Attention is All You Need》原文鏈接:
https://arxiv.org/pdf/1706.03762
CNN/RNN/Transformer分析對比表

在多機(jī)多卡算力時代,Transformer是比CNN和RNN更加通用的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

三,Decode-Only: 更加通用的大語言模型架構(gòu)


《Attention is All You Need》提出了Transformer架構(gòu)后,大語言模型的技術(shù)探索出現(xiàn)三個方向:僅使用左邊紅色框部分的Encoder-Only,僅使用右邊綠色框的Decoder-Only和全部都使用的Encoder-Decoder。???????

《Attention is All You Need》原文鏈接:
https://arxiv.org/pdf/1706.03762

wKgZO2f2FCWAO-YcAAIK6LPiAdA086.png


Encoder-Only:僅使用左邊紅色框中的編碼器部分構(gòu)建大語言模型,這個方向一開始主要有Google、Baidu等參與,代表模型有BERT、ERNIE等。Encoder-Only模型是掩碼語言模型(Masked Language Model),使用雙向注意力機(jī)制,即訓(xùn)練模型時,提供預(yù)測字符的雙向上下文,這有點兒類似完形填空,從一句話中隨機(jī)挖掉一個字(例如:白_依山盡),然后預(yù)測被挖掉字。由于模型能獲得預(yù)測字符之前(過去)和之后(未來)的上下文,所以能高效學(xué)習(xí)上下文語義,體現(xiàn)出強(qiáng)大的文本語義理解能力,常用于情感分析、閱讀理解和文本分類等任務(wù)。但也正是由于模型在預(yù)測時同時受過去和未來雙向的上下文限制,導(dǎo)致在生成文本時表現(xiàn)質(zhì)量不高和多樣性低,不太符合用戶的預(yù)期。隨著 AI 應(yīng)用向文本創(chuàng)作、對話系統(tǒng)、代碼生成等方向擴(kuò)展,Encoder-only 架構(gòu)難以滿足AIGC應(yīng)用的生成需求,所以,在2021年后,這個方向就停止演進(jìn)了。

Decoder-Only: 僅使用右邊綠色框中的解碼器部分構(gòu)建大語言模型,這個方向主要由OpenAI主導(dǎo),代表模型是GPT系列模型。Decoder-Only模型是自回歸語言模型(Autoregressive Language Modeling),使用因果注意力機(jī)制,即訓(xùn)練模型時,不能看見右側(cè)(未來)的上下文,只能使用左側(cè)(過去)的上下文預(yù)測下一個字符(Token),這有點兒類似故事續(xù)寫,給出前面的字(例如:白_),然后預(yù)測下一個字。由于模型只能獲得預(yù)測字符之前(過去)的上下文,訓(xùn)練起來更難,需要更大的數(shù)據(jù)集和更強(qiáng)的算力。2020年發(fā)布的GPT-3證明了 Decoder-Only 架構(gòu)在大規(guī)模數(shù)據(jù)上能夠更好地學(xué)習(xí)語言的統(tǒng)計規(guī)律和模式,不僅在生成文本時表現(xiàn)出更高的質(zhì)量和多樣性,還顯著增強(qiáng)了語言理解的能力,使得模型能夠更好地理解用戶的意圖和需求,并據(jù)此生成更加符合用戶期望的文本。由此,在2021年后,Google、Baidu、Meta等廠家都轉(zhuǎn)向了Decoder-Only架構(gòu)。

Encoder-Decoder:同時使用編碼器和解碼器部分構(gòu)建大語言模型,這個方向主要由Google、ZhipuAI在探索,代表模型有T5、GLM等。該構(gòu)架雖然能兼顧Encoder-Only和Decoder-Only架構(gòu)的優(yōu)勢,但相對Decoder-Only架構(gòu),訓(xùn)練成本高2~5倍、推理成本高2~3倍,所以,僅用于一些需要嚴(yán)格雙向理解的細(xì)分領(lǐng)域(如多模態(tài)生成任務(wù)),其發(fā)展被 Decoder-only 大大超越。

JINGFENG YANG等在《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》,

https://arxiv.org/pdf/2304.13712
展現(xiàn)出了大語言模型架構(gòu)的演進(jìn)全景圖。上述演進(jìn)趨勢可以從下圖中看出:

wKgZPGf2FDKAQOa2ABT6FyNvs0E842.png

2023年后的主流大語言模型(如GPT-4、ERNIE4.0、Llama3...)均采用Decoder-Only架構(gòu),核心原因正是 Decoder-Only架構(gòu)比其它兩個架構(gòu)更簡單、更通用,在計算能力飛速發(fā)展的大趨勢下, Decoder-Only架構(gòu)擁有更大的Scale up的潛力 -- 即保持核心架構(gòu)不變的情況下,通過增加訓(xùn)練數(shù)據(jù),擴(kuò)大模型參數(shù)規(guī)模和提升計算能力,可以進(jìn)一步提升模型能力。

四???????,總結(jié)


大語言模型的演進(jìn)過程,再次證明了Richard S. Sutton在《The Bitter Lesson》

http://www.incompleteideas.net/IncIdeas/BitterLesson.html
提到的AI能力演進(jìn)的哲學(xué)思想:使用通用方法,然后借助計算能力Scale Up。

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內(nèi)容請關(guān)注“算力魔方?”!

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33554

    瀏覽量

    274193
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    557

    瀏覽量

    10596
收藏 人收藏

    評論

    相關(guān)推薦

    一文詳解基于以太網(wǎng)的GPU Scale-UP網(wǎng)絡(luò)

    最近Intel Gaudi-3的發(fā)布,基于RoCE的Scale-UP互聯(lián),再加上Jim Keller也在談用以太網(wǎng)替代NVLink。
    的頭像 發(fā)表于 04-22 17:22 ?4833次閱讀
    一文詳解基于以太網(wǎng)的GPU <b class='flag-5'>Scale-UP</b>網(wǎng)絡(luò)

    Scale out成高性能計算更優(yōu)解,通用互聯(lián)技術(shù)大有可為

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)從聊天機(jī)器人程序ChatGPT,到文生視頻大模型Sora,AI大模型的蓬勃發(fā)展背后,為算法模型、高質(zhì)量數(shù)據(jù)、算力基礎(chǔ)設(shè)施帶來了持續(xù)的挑戰(zhàn)。“當(dāng)企業(yè)通過Scale out
    的頭像 發(fā)表于 04-07 00:06 ?3204次閱讀
    <b class='flag-5'>Scale</b> out成高性能計算更優(yōu)解,<b class='flag-5'>通用</b>互聯(lián)技術(shù)大有可為

    Unix哲學(xué)歸納

    Douglas McIlroy是Unix系統(tǒng)上管道機(jī)制的發(fā)明者,也是Unix文化的締造者之一。他歸納的Unix哲學(xué)如下:程序應(yīng)該只關(guān)注一個目標(biāo),并盡可能把它做好。讓程序能夠互相協(xié)同工作。應(yīng)該讓程序處理文本數(shù)據(jù)流,因為這是一個通用的接口。
    發(fā)表于 07-10 07:05

    AI核心是什么?

    AI概念籠統(tǒng),范圍廣大,到底什么才是AI核心?手把手教你設(shè)計人工智能芯片及系統(tǒng)(全階設(shè)計教程+AI芯片F(xiàn)PGA實現(xiàn)+開發(fā)板)詳情鏈接:http://url.elecfans.com/
    發(fā)表于 10-18 06:39

    深度學(xué)習(xí)推理和計算-通用AI核心

    ,支持廣泛的應(yīng)用程序和動態(tài)工作負(fù)載。本文將討論這些行業(yè)挑戰(zhàn)可以在不同級別的硬件和軟件設(shè)計采用Xilinx VERSAL AI核心,業(yè)界首創(chuàng)自適應(yīng)計算加速平臺超越了CPU/GPU和FPGA的性能。
    發(fā)表于 11-01 09:28

    AGI:走向通用人工智能的【生命學(xué)&哲學(xué)&科學(xué)】第一篇——生命、意識、五行、易經(jīng)、量子 精選資料分享

    AGI:走向通用人工智能的【生命學(xué)&哲學(xué)&科學(xué)】第一篇——生命、意識、五行、易經(jīng)、量子經(jīng)典的物理統(tǒng)一在原子上,量子的物理統(tǒng)一在量子上,化學(xué)統(tǒng)一在元素上,而生命統(tǒng)一在DNA上,DNA
    發(fā)表于 07-26 06:57

    TB-96AI是什么?TB-96AI核心板有哪些核心功能

    產(chǎn)品概述?TB-96AI是由Linaro、Rockchip、Bearkey三方聯(lián)合研發(fā)的全球第一款符合96Boards Compute SOM規(guī)范的面向人工智能領(lǐng)域的高性能嵌入式AI核心板,并由
    發(fā)表于 06-20 16:28

    CDMA2000核心網(wǎng)演進(jìn)組網(wǎng)策略探討

    摘要 文章首先闡述了CDMA2000的發(fā)展現(xiàn)狀,分析了不同的CDMA2000 1X網(wǎng)絡(luò)演進(jìn)路線,然后針對新建運營商或已有CDMA2000 1X的網(wǎng)絡(luò)運營商,給出了CDMA2000核心網(wǎng)電路域、分
    發(fā)表于 06-15 17:13 ?1663次閱讀

    CDMA核心網(wǎng)向LTE演進(jìn)分析

    CDMA核心網(wǎng)向LTE演進(jìn)分析
    發(fā)表于 01-14 11:23 ?29次下載

    通用串行總線USB技術(shù)演進(jìn)及測試方案

    通用串行總線USB技術(shù)演進(jìn)及測試方案說明。
    發(fā)表于 03-30 09:36 ?7次下載
    <b class='flag-5'>通用</b>串行總線USB技術(shù)<b class='flag-5'>演進(jìn)</b>及測試方案

    AI引擎編程:卡恩進(jìn)程網(wǎng)絡(luò)演進(jìn)

    電子發(fā)燒友網(wǎng)站提供《AI引擎編程:卡恩進(jìn)程網(wǎng)絡(luò)演進(jìn).pdf》資料免費下載
    發(fā)表于 09-13 17:24 ?0次下載
    <b class='flag-5'>AI</b>引擎編程:卡恩進(jìn)程網(wǎng)絡(luò)<b class='flag-5'>演進(jìn)</b>

    IBM推出專為AI打造的全新Storage Scale System 6000

    Storage Scale System 6000擁有高性能并行文件系統(tǒng),能夠從容應(yīng)對數(shù)據(jù)密集型AI工作負(fù)載。它為只讀工作負(fù)載提供高達(dá)700萬次的IOPS(每秒輸入/輸出操作)和最高256 GB/秒的數(shù)據(jù)吞吐量。這樣的性能水平可確保AI
    的頭像 發(fā)表于 11-01 16:51 ?875次閱讀

    人工智能初創(chuàng)企業(yè)Scale AI融資10億美元

    近日,人工智能領(lǐng)域的初創(chuàng)翹楚Scale AI宣布在F輪融資中成功籌集到10億美元,使得其估值達(dá)到了驚人的138億美元,較之前的估值實現(xiàn)了近乎翻倍的增長。
    的頭像 發(fā)表于 05-24 09:22 ?820次閱讀

    奇異摩爾分享計算芯片Scale Up片間互聯(lián)新途徑

    開放數(shù)據(jù)中心委員會ODCC冬季全員會議于12月4日-6日在春暖花開的昆明舉行。奇異摩爾首席系統(tǒng)架構(gòu)師朱琛作為網(wǎng)絡(luò)工作組ETH-X超節(jié)點項目的核心成員分享了AI Networking Scale
    的頭像 發(fā)表于 12-09 09:36 ?1035次閱讀
    奇異摩爾分享計算芯片<b class='flag-5'>Scale</b> <b class='flag-5'>Up</b>片間互聯(lián)新途徑

    華為發(fā)布業(yè)界首個AI核心網(wǎng)

    在MWC25巴塞羅那期間舉辦的產(chǎn)品與解決方案發(fā)布會上,華為云核心網(wǎng)產(chǎn)品線總裁高治國面向全球發(fā)布了業(yè)界首個AI核心網(wǎng)。AI核心網(wǎng)從
    的頭像 發(fā)表于 03-05 10:13 ?339次閱讀