一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

驅(qū)動(dòng)云/邊緣側(cè)算力建設(shè)的高性能互聯(lián)接口方案

jf_pJlTbmA9 ? 來(lái)源:奎芯科技 ? 作者:奎芯科技 ? 2023-11-23 16:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

9月14-15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳正式舉行??究萍紤?yīng)邀出席大會(huì),副總裁王曉陽(yáng)發(fā)表主題為《驅(qū)動(dòng)云/邊緣側(cè)算力建設(shè)的高性能互聯(lián)接口方案》的演講。在演講中,王曉陽(yáng)分享了AIGC產(chǎn)業(yè)算力需求引發(fā)的芯片互聯(lián)趨勢(shì),并對(duì)算力芯片瓶頸進(jìn)行了分析,提出了奎芯內(nèi)存互聯(lián)解決方案和Chiplet方案落地案例。

AIGC引爆的芯片互聯(lián)趨勢(shì)

最近幾年AI模型快速發(fā)展,模型規(guī)模每年差不多10倍速度增長(zhǎng),當(dāng)令人驚訝的1750億參數(shù)的GPT3已成為過(guò)去式,迎來(lái)更大體量的萬(wàn)億參數(shù)時(shí)代,AI系統(tǒng)算力需求也隨之增加,幾乎每季度翻倍增長(zhǎng)。最近幾年體系結(jié)構(gòu)討論最多的問(wèn)題之一就是如何破解兩堵墻:內(nèi)存墻和I/O墻。多年來(lái)通過(guò)工藝進(jìn)步,計(jì)算架構(gòu)設(shè)計(jì)革新等方法,理論算力的增長(zhǎng)速度是驚人的,但是內(nèi)存帶寬,互聯(lián)帶寬的增長(zhǎng)卻相對(duì)緩慢,造成了巨大的落差,最近業(yè)界也在嘗試很多方法來(lái)縮小這些差距比如:增加緩存,多級(jí)緩存架構(gòu),堆疊緩存;盡量提高單節(jié)點(diǎn)算力減少互聯(lián)的overhead;用高速的芯片互聯(lián)和系統(tǒng)互聯(lián)的SerDes做芯片互聯(lián)等等。

wKgZomVda3WAdBIBAADwKs34-fA147.jpg

英偉達(dá)GH200非常重點(diǎn)的強(qiáng)調(diào)HBM帶寬,LPDDR容量,以及NVLINK的速度。AMD發(fā)布的MI300X對(duì)算力指標(biāo)提都不提,只提內(nèi)存容量、內(nèi)存帶寬以及互聯(lián)帶寬。因此可以看到在LLM的游戲規(guī)則下,內(nèi)存容量、內(nèi)存帶寬以及互聯(lián)帶寬成了最核心的競(jìng)爭(zhēng)力,而算力的重要性相對(duì)下降。

算力芯片瓶頸分析

目前主流AI大芯片采用HBM為主,它的價(jià)格相對(duì)其他內(nèi)存要貴,但單位帶寬成本較低。

HBM使用有諸多限制,其一是因?yàn)镠BM的顆粒必須和SOC的Die要對(duì)齊,合封在一起,所以它是一個(gè)緊耦合的狀態(tài),會(huì)帶來(lái)如下限制:在HBM數(shù)量方面,SoC與HBM必須保持貼合,導(dǎo)致HBM顆粒數(shù)量受限于芯片邊緣長(zhǎng)度;在熱管理方面,DRAM的溫度敏感性會(huì)限制SoC的工作頻率,從而影響性能,而SoC與HBM之間的熱交互對(duì)測(cè)試提出了更高的要求;在設(shè)計(jì)實(shí)施方面,HBM IP的布局和適配性相對(duì)不夠靈活;另外,工藝限制要求SoC與HBM HOST IP必須采用相同的工藝制程;最后,需要注意的是SoC的面積占用問(wèn)題,在12納米工藝下每個(gè)HBM HOST IP大約占據(jù)30mm2,限制了計(jì)算單元的面積。

其二是主流HBM的應(yīng)用還是以先進(jìn)封裝為主,包括Silicon interposer 或者Silicon Bridge等,也帶來(lái)了不少限制:Interposer尺寸受限制,最大只能有3到4個(gè)曝光面積;2.5D封裝的成本較高,與標(biāo)準(zhǔn)封裝相比價(jià)格高出4倍,近期臺(tái)積電的CoWoS單價(jià)上漲了20%;采用uBump作為連接點(diǎn)時(shí),測(cè)試覆蓋率有限,當(dāng)封裝中包含超過(guò)6個(gè)HBM和2個(gè)ASIC時(shí),良率明顯下降;最后,CoWoS產(chǎn)能有限,臺(tái)積電的CoWoS產(chǎn)能緊缺,國(guó)內(nèi)2.5D封裝技術(shù)還不夠成熟。

奎芯基于UCIe接口的HBM互聯(lián)方案

針對(duì)這些問(wèn)題,奎芯科技打造一站式解決方案—M2LINK,用于將HBM和SoC解耦?;咀龇ㄊ抢靡活wChiplet將HBM接口協(xié)議轉(zhuǎn)成UCIE接口協(xié)議,然后用RDL interposer 把Chiplet和HBM內(nèi)存封裝成一個(gè)標(biāo)準(zhǔn)模組,最后通過(guò)普通基板來(lái)和主SoC進(jìn)行封裝。這樣主SoC和標(biāo)準(zhǔn)模組間距離預(yù)計(jì)可以拉遠(yuǎn)到2.5cm,克服了原先主SoC和HBM緊耦合和綁定的限制,同時(shí)也無(wú)需受限于先進(jìn)封裝的高成本和Si Interposer的有限尺寸。除此之外還有諸多好處,比如以UCIe IP取代HBM IP,節(jié)省了主芯片面積,主芯片成本降低;單位邊長(zhǎng)可以連接更多的HBM標(biāo)準(zhǔn)模組,內(nèi)存容量和帶寬都可以得到提升等等。

wKgZomVda3yAHPvGAAELq7n1XT0168.jpg

以目前主流芯片為例,SoC近HBM的邊長(zhǎng)為30mm的話,可以擺放6個(gè)HBM顆粒,利用M2LINK方案的話,雙邊共可以擺放8個(gè)HBM模組,同等大小的SoC可利用面積增大44%,內(nèi)存容量帶寬增加1/3, 最大封裝面積可以增加一倍以上。

奎芯Chiplet落地解決方案

奎芯科技作為國(guó)內(nèi)領(lǐng)先的互聯(lián)IP產(chǎn)品及Chiplet產(chǎn)品供應(yīng)商,國(guó)產(chǎn)自研內(nèi)存及互聯(lián)解決方案,奎芯LPDDR5X接口速率可達(dá)8533Mbps,業(yè)界領(lǐng)先??綝2D接口則具有高速率、低功耗、低延遲等優(yōu)勢(shì)。而奎芯HBM接口可支持國(guó)產(chǎn)工藝 PHY+ Controller 全套方案,速率可達(dá)6.4Gbps。目前,奎芯已經(jīng)有70件知識(shí)產(chǎn)權(quán)申請(qǐng),以及16件榮譽(yù)獎(jiǎng)項(xiàng)。

wKgaomVda4KAaU6LAAEMlVw-uU0487.jpg

奎芯科技基于對(duì)于整個(gè)封裝供應(yīng)鏈的整合能力,目前和客戶一起打造一款標(biāo)準(zhǔn)的帶HBM3的2.5D全國(guó)產(chǎn)封裝大芯片,將會(huì)提供包含HBM IP, interposer設(shè)計(jì),2.5D封裝的設(shè)計(jì)的完整的turn key solution。

wKgZomVda4mALNNIAAEB_o5y5LI780.jpg

同時(shí),奎芯科技基于D2D(UCIe)解耦SoC和HBM HOST的思路不僅適用于云端訓(xùn)練和推理的大算力芯片,在端側(cè)已經(jīng)有具體實(shí)踐的案例,目前在給客戶打造的是一款低功耗計(jì)算產(chǎn)品的IO die。對(duì)于此場(chǎng)景,客戶希望計(jì)算部分用最先進(jìn)的制程,考慮到昂貴的成本,客戶還是希望解耦內(nèi)存接口放到成熟工藝上實(shí)現(xiàn),因此我們給客戶打造一顆包含 LPDDR host 的完整IO die, 實(shí)現(xiàn)內(nèi)存接口解耦,降低成本,為客戶未來(lái)產(chǎn)品升級(jí)增加靈活性。

奎芯科技致力于建立開(kāi)放生態(tài)的一站式Chiplet服務(wù)平臺(tái),提供接口IP,Chiplet,系統(tǒng)設(shè)計(jì)和先進(jìn)封裝設(shè)計(jì)等服務(wù),配套強(qiáng)大的供應(yīng)鏈資源及高效的系統(tǒng)整合服務(wù),為客戶提供完整的一站式解決方案。

來(lái)源: 奎芯科技

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    460

    文章

    52520

    瀏覽量

    440913
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    1983

    瀏覽量

    35913
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1201

    瀏覽量

    15654
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    459

    瀏覽量

    12997
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為AI WAN智IP廣域網(wǎng)助力互聯(lián)網(wǎng)建設(shè)

    的發(fā)展機(jī)遇。數(shù)據(jù)通信網(wǎng)絡(luò)的高效性、可靠性和智能化程度,直接決定了資源能否在廣域網(wǎng)范圍內(nèi)實(shí)現(xiàn)快速、精準(zhǔn)的調(diào)配與利用,進(jìn)而影響互聯(lián)網(wǎng)的整
    的頭像 發(fā)表于 06-11 11:21 ?520次閱讀

    6TOPSNPU加持!RK3588如何重塑8K顯示的邊緣計(jì)算新邊界

    在萬(wàn)物互聯(lián)的時(shí)代背景下,邊緣計(jì)算與8K顯示的融合需求日益迫切。傳統(tǒng)的云端處理模式在面對(duì)8K超高清視頻數(shù)據(jù)時(shí),常常出現(xiàn)延遲高、帶寬壓力大等問(wèn)題,而邊緣計(jì)算設(shè)備由于
    發(fā)表于 04-18 15:32

    157 TOPS !AIO-OrinNX 主板助力邊緣 AI 應(yīng)用

    Firefly最新推出NVIDlAJetsonOrin主板,搭載JetsonOrin系列核心模組,最高可達(dá)157TOPS,支持大模型私有化部署,為邊緣AI應(yīng)用的開(kāi)發(fā)與部署提供強(qiáng)勁的
    的頭像 發(fā)表于 04-02 16:33 ?1318次閱讀
    157 TOPS <b class='flag-5'>算</b><b class='flag-5'>力</b>!AIO-OrinNX 主板助力<b class='flag-5'>邊緣</b> AI 應(yīng)用

    【一文看懂】什么是端側(cè)

    隨著物聯(lián)網(wǎng)(IoT)、人工智能和5G技術(shù)的快速發(fā)展,端側(cè)正逐漸成為智能設(shè)備性能提升和智能化應(yīng)用實(shí)現(xiàn)的關(guān)鍵技術(shù)。什么是端側(cè)
    的頭像 發(fā)表于 02-24 12:02 ?1319次閱讀
    【一文看懂】什么是端<b class='flag-5'>側(cè)</b><b class='flag-5'>算</b><b class='flag-5'>力</b>?

    科技報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?

    科技報(bào)到:要更要“利”,“精裝”觸發(fā)大模型產(chǎn)業(yè)新變局?
    的頭像 發(fā)表于 01-16 10:24 ?466次閱讀

    華為助力貴州氣象高性能項(xiàng)目建設(shè)

    一體化網(wǎng)絡(luò)國(guó)家(貴州)樞紐節(jié)點(diǎn)建設(shè)氣象高性能,確保能夠有效支撐國(guó)家級(jí)數(shù)值模式的貴州本地化
    的頭像 發(fā)表于 11-25 10:19 ?563次閱讀

    GPU租用平臺(tái)是什么

    GPU租用平臺(tái)是一種基于計(jì)算的服務(wù)模式,它允許用戶通過(guò)互聯(lián)網(wǎng)按需租用高性能GPU資源,而無(wú)需自行購(gòu)買、部署和維護(hù)這些硬件。
    的頭像 發(fā)表于 10-16 10:15 ?681次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】--全書概覽

    1章 從TOP500和MLPerf看芯片格局 1.1科學(xué)最前沿TOP500 1.2 AI
    發(fā)表于 10-15 22:08

    米爾STM32MP2核心板首發(fā)新品上市!高性能+多接口+邊緣

    /1路USB2.0 HOST/3路SDIO3.0/9路UART接口/8路I2C/4個(gè)I3/8路SPI/1路16bit FMC等。STM32MP2憑借先進(jìn)、豐富接口和高安全性,為
    發(fā)表于 09-20 18:24

    ST系列-米爾STM32MP257核心板開(kāi)發(fā)板-高性能+多接口+邊緣

    MYC-LD25X核心板及開(kāi)發(fā)板ST第二代工業(yè)級(jí)MPU,高性能+多接口+邊緣STM32MP2系列是意法半導(dǎo)體推出最新一代工業(yè)級(jí)64位微處
    發(fā)表于 09-20 17:46 ?8次下載

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

    ,在全球范圍內(nèi),對(duì)于推動(dòng)科技進(jìn)步、經(jīng)濟(jì)發(fā)展及社會(huì)整體的運(yùn)作具有至關(guān)重要的作用。隨著信息技術(shù)的高速發(fā)展,高性能計(jì)算(HPC)和人工智能(AI)等技術(shù)在多個(gè)領(lǐng)域的應(yīng)用變得日益廣泛,芯片
    發(fā)表于 09-02 10:09

    廣和通端側(cè)AI解決方案驅(qū)動(dòng)性能密集型場(chǎng)景商用型場(chǎng)景商用

    2024世界機(jī)器人大會(huì)期間,廣和通宣布:基于高通QCS8550平臺(tái)的廣和通端側(cè)AI解決方案高效使能性能密集型場(chǎng)景。該端側(cè)AI解決方案整合強(qiáng)大
    的頭像 發(fā)表于 08-23 16:06 ?613次閱讀

    廣和通端側(cè)AI解決方案驅(qū)動(dòng)性能密集型場(chǎng)景商用型場(chǎng)景商用

    2024世界機(jī)器人大會(huì)期間,廣和通宣布:基于高通QCS8550平臺(tái)的廣和通端側(cè)AI解決方案高效使能性能密集型場(chǎng)景。該端側(cè)AI解決方案整合強(qiáng)大
    的頭像 發(fā)表于 08-23 16:05 ?1018次閱讀
    廣和通端<b class='flag-5'>側(cè)</b>AI解決<b class='flag-5'>方案</b><b class='flag-5'>驅(qū)動(dòng)</b><b class='flag-5'>性能</b>密集型場(chǎng)景商用型場(chǎng)景商用

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.41】大模型時(shí)代的基礎(chǔ)架構(gòu):大模型中心建設(shè)指南

    章講解GPU集群的網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn);第7章講解GPU板卡調(diào)度技術(shù);第8章講解GPU虛擬化調(diào)度方案;第9章講解GPU集群的網(wǎng)絡(luò)虛擬化設(shè)計(jì)與實(shí)現(xiàn);第10章講解GPU集群的存儲(chǔ)設(shè)計(jì)與實(shí)現(xiàn);第11章講解
    發(fā)表于 08-16 18:33

    IaaS+on+DPU(IoD)+下一代高性能底座技術(shù)白皮書

    、VMware、Palo Alto 等公司紛紛推出相關(guān)解決方案。這些方案背后共同的本質(zhì)思想是:將計(jì)算的 IaaS 層組件從服務(wù)器側(cè)卸載后圍繞 DPU 構(gòu)筑
    發(fā)表于 07-24 15:32