一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ASIC爆火!大廠AI訓(xùn)練推理拋棄GPU;博通的護城河有多深?

Hobby觀察 ? 來源:電子發(fā)燒友 ? 作者:梁浩斌 ? 2024-12-18 01:25 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/梁浩斌)在上周末,博通應(yīng)該可以說是投資圈和科技圈最火爆的話題,大家紛紛驚呼“英偉達的對手終于出現(xiàn)了!”“ASIC要超越GPU”云云。

這一切都要源于上周五博通公布的炸裂財報,AI業(yè)務(wù)營收同比暴增220%,當(dāng)天公司股價大漲24.43%,市值突破萬億美元,成為第九家市值突破萬億美元的美股上市公司,全球第三家市值超萬億美元的半導(dǎo)體公司。

當(dāng)然,更重要的是對未來的預(yù)期,博通在數(shù)據(jù)中心高速互連領(lǐng)域有非常大的市場份額,這代表著AI基礎(chǔ)設(shè)施的規(guī)模增長,博通的部分增長也確實來自以太網(wǎng)網(wǎng)絡(luò)部件。但除了高速互連之外,博通還正在與一些大型云服務(wù)供應(yīng)商合作,幫助他們開發(fā)定制AI芯片,這部分業(yè)務(wù)的增長迅速,將會令博通成為英偉達的最大挑戰(zhàn)者。

博通的AI芯片布局

博通的傳統(tǒng)優(yōu)勢是在高速互連方面,比如數(shù)據(jù)中心的以太網(wǎng)傳輸中用到的高速光模塊產(chǎn)品組合,還有在高速互連中使用到的高速SerDes內(nèi)核IP等。而目前博通在AI芯片領(lǐng)域,主要也是提供ASIC解決方案,提供設(shè)計、廣泛IP組合、先進封裝等方案,集成了內(nèi)存、高速SerDes、PCIe接口等IP,以及Arm/Power PC等CPU內(nèi)核。

ASIC即專用集成電路,顧名思義,與英偉達提供的通用GPU不同,ASIC是專門針對某種場景或應(yīng)用設(shè)計,目前不少云計算巨頭都在使用定制的ASIC作為數(shù)據(jù)中心的核心芯片。作為一種專用芯片,在設(shè)計之初就是為了滿足特定的任務(wù)和算法需求,因此在針對算法開發(fā)的情況下,計算效率和能效比都能夠相比通用GPU大幅提高。

比如谷歌去年推出的TPU v5e專為提升中大型模型的訓(xùn)練、推理等任務(wù)設(shè)計,相比上一代的TPU v4訓(xùn)練性能提高2倍,推理性能提高2.5倍,但成本只有上一代的一半不到,大幅提升了計算效率以及成本效益。

對于云計算巨頭而言,為了降低對英偉達的依賴,同時也為了降低成本,選擇定制ASIC都會是一個比較確定的方向。除了谷歌之外,亞馬遜、華為、阿里、百度等云計算巨頭都已經(jīng)有自研數(shù)據(jù)中心ASIC產(chǎn)品,并已經(jīng)投入使用。

而博通目前依靠在高速互連方面的關(guān)鍵技術(shù),在對互連速率要求極高的AI計算領(lǐng)域就極具優(yōu)勢。早在2020年,博通推出了公司首款采用臺積電N5工藝的數(shù)據(jù)中心ASIC,集成了PCIe Gen5協(xié)議、112 Gbps SerDes、運行頻率為3.6 Gbps、集成HBM2e,利用TSMC CoWoS Interposer封裝技術(shù)實現(xiàn)3.6 Tbps Die2Die PHY IP,幾乎將先進的高速互連技術(shù)堆滿。

最近博通還推出了3.5D XDSiP封裝平臺,可以將超過6000平方毫米的3D堆疊硅晶片和12個HBM模塊集成到一個系統(tǒng)級封裝中,同時大幅提升片內(nèi)互連的性能。

與傳統(tǒng)采用硅通孔TVS的F2B(面到背)的技術(shù)相比,3.5D XDSiP采用HCB(混合銅鍵合)以F2F(面對面)的方式將邏輯芯片堆疊,堆疊芯片之間的信號密度提高了7倍;3.5D XDSiP通過利用3D HCB代替平面芯片到芯片物理接口,芯片到芯片接口的功耗降低了90%,還能最大限度地減少3D堆棧中計算、內(nèi)存和I/O組件之間的延遲。

據(jù)稱博通的3.5D XDSiP目前已經(jīng)被主要的AI領(lǐng)域客戶使用,已經(jīng)有6款產(chǎn)品正在開發(fā)中,博通預(yù)計最早在2026年2月實現(xiàn)出貨。其中富士通下一代2nm制程的Arm處理器FUJITSU-MONAKA已經(jīng)確認(rèn)使用博通3.5D XDSiP技術(shù),這款處理器面向數(shù)據(jù)中心、邊緣計算等應(yīng)用,據(jù)此前富士通的介紹,MONAKA每顆CPU包含一個中央的I/O die和四個3D垂直堆疊die,并集成SRAM,預(yù)計2027年出貨。

今年9月,博通還展示了一種帶有光學(xué)模塊的AI計算ASIC,實現(xiàn)片間光互連。博通在制造中使用了FOWLP封裝技術(shù),將CPO模塊與AI ASIC封裝在一起,大幅降低了系統(tǒng)延遲,還實現(xiàn)了可插拔的激光器設(shè)計,便于數(shù)據(jù)中心維護。

目前來看,在AI計算中極為重要的互連技術(shù)上,博通擁有很強大的技術(shù)積累,這也為其ASIC定制服務(wù)建立了穩(wěn)固的壁壘。從客戶群來看,博通在財報中透露,目前正在與三家非常大型的云計算客戶開發(fā)AI芯片,并預(yù)計到2027年,每個客戶都將在網(wǎng)絡(luò)集群中部署100萬個AI芯片,屆時市場對定制AI ASIC的需求容量將高達600億-900億美元。

ASIC跑AI,大廠的專屬玩物

最近大廠開發(fā)ASIC的消息頻出,在博通公布財報的前一天,就傳出蘋果與博通合作,開發(fā)面向AI推理的ASIC芯片,將采用臺積電N3P工藝,計劃在2026年投入生產(chǎn)。而亞馬遜也在月初公布了AI芯片Trn2UltraServer和Amazon EC2Trn2的應(yīng)用實例,展示出ASIC的應(yīng)用性價比遠(yuǎn)超GPU。

但可能大家也發(fā)現(xiàn),目前定制開發(fā)高算力ASIC的廠商,無一例外是云計算大廠,本身公司業(yè)務(wù)就有極大規(guī)模的算力需求。這是由于ASIC的定制費用較高,需要有足夠龐大的規(guī)模才能分?jǐn)偳捌诙ㄖ崎_發(fā)費用。

ASIC定制費用,主要是開發(fā)過程中的一次性工程費用,也被業(yè)內(nèi)稱為NRE(Non-Recurring Engineering)。顧名思義,NRE費用只需要支出一次,后續(xù)規(guī)模生產(chǎn)中不需要再增加這部分費用。

NRE費用中,包含芯片設(shè)計的成本,比如研發(fā)人員薪酬、EDA工具授權(quán)費等,這與芯片使用的制程工藝、芯片本身的復(fù)雜程度相關(guān);然后是版圖設(shè)計成本,其實這里的概念跟芯片設(shè)計的成本類似,主要是涉及芯片的物理布局設(shè)計,需要特定的研發(fā)人員和軟件支持;再是IP授權(quán)費用,一般是一些通用的IP,比如CPU IP、內(nèi)存控制器、接口IP等。

以定制一款采用5nm制程的ASIC為例,NRE費用可以高達1億至2億美元。然而一旦能夠大規(guī)模出貨,NRE費用就可以很大程度上被攤薄。

博通也提到,未來每個客戶將在網(wǎng)絡(luò)集群中部署100萬片AI芯片,即使其中只有30萬片是定制的ASIC,那么分?jǐn)偟矫恳黄酒系腘RE費用就大約只要300-600美元,相比GPU的成本有明顯的優(yōu)勢。而據(jù)業(yè)內(nèi)人士分析,中等復(fù)雜程度的ASIC盈虧平衡點在10萬片左右。

小結(jié):

盡管目前英偉達GPU在AI訓(xùn)練、推理的應(yīng)用中還是處于一家獨大的地位,但ASIC的成本效益,讓各大大模型廠商不得不開始考慮轉(zhuǎn)向ASIC。加上谷歌推出的Gemini2.0已經(jīng)開始帶頭使用自家的TPU來進行訓(xùn)練和推理,以往ASIC不適用于AI訓(xùn)練的刻板印象也逐步被打破。

如果ASIC的成本效益未來能被進一步開發(fā)至極致,那么至少像百度、阿里、谷歌、騰訊、華為這樣的集大模型開發(fā)和云計算服務(wù)于一體的互聯(lián)網(wǎng)巨頭,會先擺脫在AI大模型上對GPU的依賴。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 博通
    +關(guān)注

    關(guān)注

    35

    文章

    4331

    瀏覽量

    107391
收藏 人收藏

    評論

    相關(guān)推薦

    摩爾線程GPU原生FP8計算助力AI訓(xùn)練

    并行訓(xùn)練推理,顯著提升了訓(xùn)練效率與穩(wěn)定性。摩爾線程是國內(nèi)率先原生支持FP8計算精度的國產(chǎn)GPU企業(yè),此次開源不僅為AI
    的頭像 發(fā)表于 03-17 17:05 ?373次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>

    一夜的DeepSeek一體機,如何改寫AI游戲規(guī)則?

    一夜的DeepSeek一體機,如何改寫AI游戲規(guī)則? 過去一個多月,科技圈有個“新晉頂流”C位出道,名字叫DeepSeek一體機。 它到什么程度? 朋友圈不斷刷屏,有人調(diào)侃:“沒
    的頭像 發(fā)表于 03-11 15:52 ?366次閱讀
    一夜<b class='flag-5'>爆</b><b class='flag-5'>火</b>的DeepSeek一體機,如何改寫<b class='flag-5'>AI</b>游戲規(guī)則?

    無法調(diào)用GPU插件推理的遠(yuǎn)程張量API怎么解決?

    運行了使用 GPU 插件的遠(yuǎn)程張量 API 的推理。但是,它未能共享 OpenCL* 內(nèi)存,但結(jié)果不正確。
    發(fā)表于 03-06 06:13

    壁仞科技支持DeepSeek-V3滿血版訓(xùn)練推理

    DeepSeek-V3滿血版在國產(chǎn)GPU平臺的高效全棧式訓(xùn)練推理,實現(xiàn)國產(chǎn)大模型與國產(chǎn)GPU的深度融合優(yōu)化,開啟國產(chǎn)算力新篇章。
    的頭像 發(fā)表于 03-04 14:01 ?668次閱讀

    AI推理ASIC,開發(fā)成敗在此一舉!

    的應(yīng)用性價比遠(yuǎn)超GPU,加上通財報AI業(yè)務(wù)同比大增220%,掀起了AI推理端的ASIC熱潮。
    的頭像 發(fā)表于 03-03 00:13 ?2624次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>帶<b class='flag-5'>火</b>的<b class='flag-5'>ASIC</b>,開發(fā)成敗在此一舉!

    燧原科技助力美圖AI換裝全球

    2025蛇年元宵后,美圖公司旗下美顏相機憑借“AI換裝”功能,獲得了國內(nèi)外用戶的極大青睞,App下載量和使用量迅速激增的同時,也面臨了海量推理算力即時支持的挑戰(zhàn)。
    的頭像 發(fā)表于 02-25 16:47 ?520次閱讀

    讓大模型訓(xùn)練更高效,奇異摩爾用互聯(lián)創(chuàng)新方案定義下一代AI計算

    ? 電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近一段時間以來,DeepSeek現(xiàn)象級引發(fā)產(chǎn)業(yè)對大規(guī)模數(shù)據(jù)中心建設(shè)的思考和爭議。在訓(xùn)練端,DeepSeek以開源模型通過算法優(yōu)化(如稀疏計算、動態(tài)架構(gòu))降低
    的頭像 發(fā)表于 02-18 09:19 ?976次閱讀
    讓大模型<b class='flag-5'>訓(xùn)練</b>更高效,奇異摩爾用互聯(lián)創(chuàng)新方案定義下一代<b class='flag-5'>AI</b>計算

    ASICGPU的原理和優(yōu)勢

    ? 本文介紹了ASICGPU兩種能夠用于AI計算的半導(dǎo)體芯片各自的原理和優(yōu)勢。 ASICGPU是什么
    的頭像 發(fā)表于 01-06 13:58 ?1267次閱讀
    <b class='flag-5'>ASIC</b>和<b class='flag-5'>GPU</b>的原理和優(yōu)勢

    GPU是如何訓(xùn)練AI大模型的

    AI模型的訓(xùn)練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU
    的頭像 發(fā)表于 12-19 17:54 ?546次閱讀

    訓(xùn)練AI大模型需要什么樣的gpu

    訓(xùn)練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時,需要根據(jù)具體需求進行權(quán)衡和選擇。
    的頭像 發(fā)表于 12-03 10:10 ?455次閱讀

    AI推理CPU當(dāng)?shù)溃珹rm驅(qū)動高效引擎

    AI訓(xùn)練推理共同鑄就了其無與倫比的處理能力。在AI訓(xùn)練方面,GPU因其出色的并行計算能力贏得
    的頭像 發(fā)表于 11-13 14:34 ?3066次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當(dāng)?shù)?,Arm驅(qū)動高效引擎

    FPGA和ASIC在大模型推理加速中的應(yīng)用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經(jīng)有了專門做推理ASIC,像Gro
    的頭像 發(fā)表于 10-29 14:12 ?1588次閱讀
    FPGA和<b class='flag-5'>ASIC</b>在大模型<b class='flag-5'>推理</b>加速中的應(yīng)用

    NVIDIA助力麗蟾科技打造AI訓(xùn)練推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練推理加速解決方案。無論是在復(fù)雜的
    的頭像 發(fā)表于 10-27 10:03 ?580次閱讀
    NVIDIA助力麗蟾科技打造<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>與<b class='flag-5'>推理</b>加速解決方案

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?753次閱讀

    GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢具體體現(xiàn)在哪些方面?

    GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢主要體現(xiàn)在以下幾個方面: 1、并行處理能力:GPU服務(wù)器擁有大量的并行處理核心,這使得它們能夠同時處理成千上萬個計算任務(wù),極大地加速了
    的頭像 發(fā)表于 09-11 13:24 ?793次閱讀