編者按
Chiplet形成標(biāo)準(zhǔn)的UCIe協(xié)議,這為多個(gè)“芯片”互聯(lián)成更大的“宏芯片”掃清了最后的障礙。當(dāng)前,很多芯片的設(shè)計(jì)規(guī)模和板級(jí)多芯片協(xié)同的功能劃分,都是基于現(xiàn)有工藝下的面積和晶體管規(guī)模約束而形成的。當(dāng)Chiplet成為主流,很多芯片的功能范疇將發(fā)生質(zhì)的變化。
CPU、GPU和DPU是數(shù)據(jù)中心的三大主流芯片,相互協(xié)同也相互影響,隨著UCIe協(xié)議的確定,三者之間的界限變得模糊,未來(lái)的服務(wù)器芯片將走向何方?是走向更多核集成的平行擴(kuò)展,還是把CPU、GPU和DPU的功能垂直集成到超異構(gòu)計(jì)算單芯片?
接下來(lái),我們?cè)敿?xì)見(jiàn)解。
參考文獻(xiàn):
1.UCIe白皮書(shū),Universal Chiplet Interconnect Express (UCIe): Building an open chiplet ecosystem,https://www.uciexpress.org/_files/ugd/0c1418_c5970a68ab214ffc97fab16d11581449.pdf
2.https://www.eet-china.com/news/202203031041.html,英特爾、臺(tái)積電、Arm、AMD等9大廠成立“UCIe產(chǎn)業(yè)聯(lián)盟”,為Chiplet互聯(lián)定制新標(biāo)準(zhǔn)
3.https://mp.weixin.qq.com/s/vdaujWZY0beoprxfGKUgpA,UCIe白皮書(shū):打造Chiplet開(kāi)放生態(tài),半導(dǎo)體行業(yè)觀察
1Chiplet協(xié)議UCIe標(biāo)準(zhǔn)確定
英特爾、AMD、ARM、高通、三星、臺(tái)積電、日月光等大廠,以及Google Cloud、Meta、微軟于3月2日宣布了一項(xiàng)新技術(shù)標(biāo)準(zhǔn)UCIe(Universal Chiplet Interconnect Express)。UCIe是一個(gè)開(kāi)放的行業(yè)互連標(biāo)準(zhǔn),可以實(shí)現(xiàn)小芯片之間的封裝級(jí)互連,具有高帶寬、低延遲、經(jīng)濟(jì)節(jié)能的優(yōu)點(diǎn)。
UCIe能夠滿足幾乎所有計(jì)算領(lǐng)域,包括云端、邊緣端、企業(yè)、5G、汽車(chē)、高性能計(jì)算和移動(dòng)設(shè)備等,對(duì)算力、內(nèi)存、存儲(chǔ)和互連不斷增長(zhǎng)的需求。UCIe 具有封裝集成不同Die的能力,這些Die可以來(lái)自不同的晶圓廠、采用不同的設(shè)計(jì)和封裝方式。
圖1 UCIe開(kāi)啟開(kāi)放式封裝級(jí)生態(tài)系統(tǒng)交付平臺(tái)
圖2 不同工藝節(jié)點(diǎn)的設(shè)計(jì)成本
Chiplets封裝集成的價(jià)值有很多:
首先是面積的影響。為了滿足不斷增長(zhǎng)的性能需求,芯片面積增加,有些設(shè)計(jì)甚至?xí)鲅谀0婷娣e的限制。即使不超過(guò)面積限制,改用多個(gè)小芯片也更有利于提升良率。另外,多個(gè)相同Die的集成封裝能夠適用于更大規(guī)模的場(chǎng)景。
另一個(gè)價(jià)值體現(xiàn)在降低成本。例如,圖1所示的處理器核心可以采用先進(jìn)的工藝,用更高的成本換取極致的性能,而內(nèi)存和I/O控制器則可以復(fù)用非先進(jìn)工藝。如圖 2 所示,隨著工藝節(jié)點(diǎn)的進(jìn)步,成本增長(zhǎng)非常迅速。若采用多Die集成模式,有些Die的功能不變,我們不必對(duì)其采用先進(jìn)工藝,可在節(jié)省成本的同時(shí)快速搶占市場(chǎng)。Chiplet封裝集成模式還可以使用戶能夠自主選擇Die的數(shù)量和類型。例如,用戶可以根據(jù)需求挑選任意數(shù)量的計(jì)算、內(nèi)存和I/O Die,并無(wú)需進(jìn)行Die的定制設(shè)計(jì),可降低產(chǎn)品的SKU成本。
允許廠商能夠以快速且經(jīng)濟(jì)的方式提供定制解決方案。如圖1所示,不同的應(yīng)用場(chǎng)景可能需要不同的計(jì)算加速能力,但可以使用同一種核心、內(nèi)存和I/O。Chiplet方式允許廠商根據(jù)功能需求對(duì)不同的功能單元應(yīng)用不同的工藝節(jié)點(diǎn),并實(shí)現(xiàn)共同封裝。相比板級(jí)互連,封裝級(jí)互連具有線長(zhǎng)更短、布線更緊密的優(yōu)點(diǎn)。
圖 UCIe分層
UCIe 是一種分層協(xié)議,分為物理層、Die-to-Die適配器和協(xié)議層,如上圖所示:
物理層負(fù)責(zé)處理電信號(hào)、時(shí)鐘信號(hào)、鏈路訓(xùn)練和邊帶信號(hào)等。
Die-to-Die適配器則為chiplet提供鏈路狀態(tài)管理和參數(shù)調(diào)整。通過(guò)CRC和鏈路級(jí)重傳機(jī)制保證數(shù)據(jù)的可靠傳輸。Die-to-Die適配器配備了底層仲裁機(jī)制用于支持多種協(xié)議,以及通過(guò)數(shù)據(jù)寬度為256字節(jié)的微片(FLIT)進(jìn)行數(shù)據(jù)傳輸?shù)牡讓觽鬏敊C(jī)制。
UCIe通過(guò)在協(xié)議層本地端提供PCIe和CXL協(xié)議映射,可以將已部署成功的SoC構(gòu)建、鏈路管理和安全解決方案直接遷移到UCIe。通過(guò)PCIe/CXL.io(CXL子協(xié)議,下文中的Cache.Mem和Cache.cache同屬此列)解決直接內(nèi)存訪問(wèn)的數(shù)據(jù)傳輸、軟件發(fā)現(xiàn)、錯(cuò)誤處理等問(wèn)題;主機(jī)內(nèi)存則通過(guò)CXL.Mem訪問(wèn);對(duì)緩存有特殊要求的加速器等應(yīng)用程序可以使用 CXL.cache對(duì)主機(jī)內(nèi)存進(jìn)行高效的緩存。UCIe 還定義了一種“流協(xié)議”,可用于映射任何其他協(xié)議。此外,隨著使用模型的發(fā)展,UCIe聯(lián)盟可以通過(guò)不斷創(chuàng)新來(lái)對(duì)Chiplet互連技術(shù)進(jìn)行優(yōu)化。
圖 封裝選項(xiàng):2D或2.5D
UCIe 1.0定義了兩種類型的封裝,如上圖所示。其中標(biāo)準(zhǔn)封裝(2D)成本效益更高,而更先進(jìn)的封裝(2.5D)則是為了追求同功率下更高的性能。實(shí)際設(shè)計(jì)中,有多種商用的封裝方式可供選擇,圖表中僅展示其中一部分。UCIe規(guī)范支持所有這些類型的封裝選擇。
UCIe支持不同的數(shù)據(jù)傳輸速率、位寬、凸點(diǎn)間隔、還有通道,來(lái)保證最廣泛的可行的互用性,詳細(xì)描述如上表所示。
UCIe互聯(lián)的單簇的組成單元是包含了N條單端、單向、全雙工的數(shù)據(jù)線(標(biāo)準(zhǔn)封裝選項(xiàng)中N=16,高級(jí)封裝選項(xiàng)中N=64),一條單端的數(shù)據(jù)線用作有效信號(hào),一條線用于追蹤,每個(gè)方向都有一個(gè)差分的發(fā)送時(shí)鐘,還有每個(gè)方向的兩條線用于邊帶信號(hào)(單端,一條是800MHz的時(shí)鐘,一條是數(shù)據(jù)線)。多簇的UCIe 互聯(lián)可以組合起來(lái),在每條連接鏈路上提供更優(yōu)的性能,如上圖所示。
2 CPU、GPU和DPU三國(guó)殺
我們的世界中有三顆太陽(yáng),它們?cè)谙嗷ヒΦ淖饔孟?,做著無(wú)法預(yù)測(cè)的三體運(yùn)動(dòng):
當(dāng)我們的行星圍繞著其中的一顆太陽(yáng)做穩(wěn)定運(yùn)行時(shí),就是恒紀(jì)元;
當(dāng)另外一顆或兩顆太陽(yáng)運(yùn)行到一定距離內(nèi),其引力會(huì)將行星從它圍繞的太陽(yáng)邊奪走,使其在三顆太陽(yáng)的引力范圍內(nèi)游移不定時(shí),就是亂紀(jì)元;
一段不確定的時(shí)間后,我們的行星再次被某一顆太陽(yáng)捕獲,暫時(shí)建立穩(wěn)定的軌道,恒紀(jì)元就又開(kāi)始了。
劉慈欣,《三體》第一部15章
如三體一樣,CPU、GPU和DPU,既相互協(xié)作,又相互競(jìng)爭(zhēng)。隨著Chiplet UCIe協(xié)議的確定,單芯片可以做到的設(shè)計(jì)規(guī)模突然增加了很多倍,這樣,勢(shì)必會(huì)引起CPU、GPU和DPU的功能的相互滲透甚至相互集成,直到最終形成新的穩(wěn)定狀態(tài)。
也有點(diǎn)像三國(guó)時(shí)代:魏蜀吳三國(guó)正在混戰(zhàn),突然神奇的一幕發(fā)生,三個(gè)國(guó)家各自的人口、資源、財(cái)富都統(tǒng)統(tǒng)增加十倍,然后依靠山川、大河的天險(xiǎn)所形成的邊界,突然都變成了平地。這個(gè)時(shí)候,兩兩之間的混戰(zhàn)就變得不可避免。
一些基本的定位分析:
獨(dú)立的DPU定位在基礎(chǔ)設(shè)施處理器,主要是硬件加速;
獨(dú)立的GPU主要做應(yīng)用層的彈性計(jì)算加速;
而CPU主要負(fù)責(zé)低計(jì)算密度高價(jià)值密度的應(yīng)用層的工作。
我們做一些假設(shè):
一個(gè)面積單位剛剛是一個(gè)計(jì)算核;
如上圖所示:CPU有60個(gè)面積單位,共計(jì)60個(gè)CPU核;GPU有60個(gè)面積單位,共計(jì)60個(gè)GPU Core(差不多對(duì)應(yīng)流式多核處理器SM);而DPU則由10個(gè)CPU核、10個(gè)GPU核以及40個(gè)其他加速引擎核組成。
我們可以做如下分析,可以是平行擴(kuò)展和垂直整合:
方向一:如上圖(a),平行擴(kuò)展。CPU、GPU和DPU均平行擴(kuò)展N倍。這樣,CPU則具有60*N個(gè)CPU核,GPU則具有60*N個(gè)GPU核,DPU則具有10*N個(gè)CPU核、10*N個(gè)GPU核以及40*N個(gè)其他加速引擎核。
方向二:如上圖(b),完成垂直整合。CPU+GPU+DPU合并成一個(gè)超異構(gòu)的單芯片。那么這個(gè)單芯片是70個(gè)CPU核、70個(gè)GPU核以及40個(gè)其他加速處理引擎組成。
介于兩者之間的則是兩兩合并:
方向三,如上圖(c),CPU和GPU整合,獨(dú)立DPU。
方向四,如上圖(d),CPU和DPU整合,獨(dú)立GPU。
方向五,如上圖(e),GPU和DPU整合成獨(dú)立加速平臺(tái),獨(dú)立CPU。
3 未來(lái)的趨勢(shì):超異構(gòu)計(jì)算
芯片工藝以及Chiplet極致帶來(lái)的資源規(guī)模越來(lái)越大,所能支撐的設(shè)計(jì)規(guī)模也越來(lái)越大,這給架構(gòu)創(chuàng)新提供了非常堅(jiān)實(shí)的基礎(chǔ)。我們可以采用多種處理引擎共存,“專業(yè)的人做專業(yè)的事情”,來(lái)共同協(xié)作的完成復(fù)雜系統(tǒng)的計(jì)算任務(wù)。并且,CPU、GPU、FPGA、一些特定的算法引擎,都可以作為IP,被集成到更大的系統(tǒng)中。這樣,構(gòu)建一個(gè)更大規(guī)模的芯片設(shè)計(jì)成為了可能。這里,我們稱之為“超異構(gòu)計(jì)算”。如上圖所示,超異構(gòu)指的是由CPU、GPU、FPGA、DSA、ASIC以及其他各種形態(tài)的處理器引擎共同組成的超大規(guī)模的復(fù)雜芯片系統(tǒng)。
數(shù)據(jù)中心的超異構(gòu)計(jì)算大致有三種類型:
DPU小系統(tǒng)。DPU已經(jīng)明確是要整合嵌入式的CPU、GPU、FPGA、DSA以及ASIC等各種不同類型處理器引擎在一起的超異構(gòu)混合計(jì)算架構(gòu)的宏SOC。
CPU+DPU中系統(tǒng)。如果我們把芯片的界限去掉,這樣獨(dú)立CPU+DPU可以理解成:獨(dú)立CPU+嵌入式CPU+嵌入式GPU+其他嵌入式處理器引擎,依然是超異構(gòu)計(jì)算架構(gòu)。
CPU+GPU+CPU大系統(tǒng)。同樣的,無(wú)視芯片的物理界限,整個(gè)系統(tǒng)是由:獨(dú)立CPU+獨(dú)立GPU+嵌入式CPU + 嵌入式GPU + 嵌入式其他處理器引擎,架構(gòu)依然沒(méi)有本質(zhì)變化,依然是超異構(gòu)計(jì)算架構(gòu)。
上圖是Intel對(duì)未來(lái)幾年數(shù)據(jù)中心架構(gòu)的基本看法??梢钥吹?,不管是小系統(tǒng)、中系統(tǒng)還是大系統(tǒng),本質(zhì)上都是超異構(gòu)計(jì)算架構(gòu)。
4 超異構(gòu)面臨的挑戰(zhàn)
4.1 性能和靈活性的矛盾
指令是軟件和硬件的媒介,指令的復(fù)雜度(單位計(jì)算密度)決定了系統(tǒng)的軟硬件解耦程度。按照指令的復(fù)雜度,典型的處理器平臺(tái)大致分為CPU、協(xié)處理器、GPU、FPGA、DSA、ASIC。任務(wù)在CPU運(yùn)行,則定義為軟件運(yùn)行;任務(wù)在協(xié)處理器、GPU、FPGA、DSA或ASIC運(yùn)行,則定義為硬件加速運(yùn)行。
魚(yú)和熊掌不可兼得,指令復(fù)雜度和編程靈活性是兩個(gè)互反的特征:指令越簡(jiǎn)單,編程靈活性越高,因此我們才說(shuō)軟件有更高的靈活性;指令越復(fù)雜,性能越高,因此而受到的限制越多,只能用于特定場(chǎng)景的應(yīng)用,其軟件靈活性越差。
4.2 如何駕馭大系統(tǒng)
超異構(gòu)計(jì)算本質(zhì)上是系統(tǒng)芯片SOC(System on Chip),但準(zhǔn)確的定義應(yīng)該是宏系統(tǒng)芯片MSOC(Macro-System on Chip)。站在系統(tǒng)的角度,傳統(tǒng)SOC是單系統(tǒng),而超異構(gòu)宏系統(tǒng),即多個(gè)系統(tǒng)整合到一起的大系統(tǒng)。
傳統(tǒng)的SOC,有一個(gè)基于CPU的核心控制程序,來(lái)驅(qū)動(dòng)CPU、GPU、外圍其他模塊以及接口數(shù)據(jù)IO等的工作,整個(gè)系統(tǒng)的運(yùn)行是集中式管理和控制的。量變到質(zhì)變,當(dāng)CPU所要控制的設(shè)備越來(lái)越多,各自之間的數(shù)據(jù)和控制交互也越來(lái)越多的時(shí)候。再加上CPU的性能已經(jīng)瓶頸,這樣,作為負(fù)責(zé)控制和計(jì)算核心的CPU,就成為整個(gè)系統(tǒng)里最脆弱的那一個(gè)。傳統(tǒng)的以CPU控制為中心的架構(gòu),變得越來(lái)越無(wú)法適應(yīng)以數(shù)據(jù)計(jì)算為中心的算力需求。
超異構(gòu)計(jì)算,由于其規(guī)模和復(fù)雜度,每個(gè)子系統(tǒng)其實(shí)就是一個(gè)傳統(tǒng)SOC級(jí)別的系統(tǒng)。需要多個(gè)子系統(tǒng)解耦,然后再集成,整個(gè)宏系統(tǒng)呈現(xiàn)出分布式系統(tǒng)的特點(diǎn)。這樣,不同系統(tǒng)并行不悖的運(yùn)行,以及系統(tǒng)間如何高效的自適應(yīng)交互,就成為了挑戰(zhàn)。
4.3 如何構(gòu)建超異構(gòu)生態(tài)
CPU通過(guò)標(biāo)準(zhǔn)化的指令集,使得CPU平臺(tái)的硬件實(shí)現(xiàn)和軟件編程完全解耦。軟件工程師,不需要關(guān)注硬件細(xì)節(jié),聚焦于軟件開(kāi)發(fā)。軟件沒(méi)有了硬件的“約束”,逐漸發(fā)展成了一個(gè)超級(jí)生態(tài)。從各種數(shù)百萬(wàn)使用者的高級(jí)編程語(yǔ)言/編譯器,到廣泛使用在云計(jì)算數(shù)據(jù)中心、PC機(jī)、手機(jī)等終端的操作系統(tǒng)以及各種系統(tǒng)框架/開(kāi)發(fā)庫(kù),再到各種專業(yè)的數(shù)據(jù)庫(kù)、中間件,以及云計(jì)算基礎(chǔ)的虛擬化、容器等。上述這些軟件都是基礎(chǔ)的支撐軟件,是軟件的“冰山一角”,而更多的則是各種應(yīng)用級(jí)的軟件。系統(tǒng)級(jí)和應(yīng)用級(jí)的軟件,共同組成了基于CPU的軟件超級(jí)生態(tài)?;贑PU已經(jīng)構(gòu)建非常龐大的生態(tài)。
基于GPGPU的并行計(jì)算編程一直是一件非常復(fù)雜的事情。但在NVIDIA的努力以及行業(yè)的變化下,GPGPU的生態(tài)逐漸發(fā)展了起來(lái):
一方面,NVIDIA堅(jiān)持多年,CUDA逐漸變得強(qiáng)大、穩(wěn)定而易用,集成了眾多開(kāi)發(fā)庫(kù)和強(qiáng)大的工具鏈,降低了編程的門(mén)檻;
另一方面,隨著AI等算力需求強(qiáng)勁的場(chǎng)景變得越來(lái)越多,GPU并行計(jì)算的價(jià)值凸顯,也使得GPU越來(lái)越成為AI、數(shù)據(jù)分析、HPC等場(chǎng)景的首先計(jì)算平臺(tái)。
以AI場(chǎng)景為例,AI-DSA嚴(yán)格來(lái)說(shuō),目前還沒(méi)有形成具有“統(tǒng)治力”的平臺(tái)和生態(tài)。開(kāi)發(fā)特定“架構(gòu)”的AI芯片,再配合特定的驅(qū)動(dòng),再需要有配套的AI工具鏈,把算法模型和應(yīng)用“半自動(dòng),半手動(dòng)”的映射到自己特定架構(gòu)的AI芯片。如果算法模型發(fā)生變化。則需要重新映射,整個(gè)過(guò)程耗時(shí)甚至?xí)^(guò)模型更新的時(shí)間。
超異構(gòu)面臨的問(wèn)題,則更是難上加難。因?yàn)槌悩?gòu)本來(lái)就是這些處理引擎的集合。超異構(gòu)可以當(dāng)做是CPU+GPU+N*(DSA/ASIC)的集合,則所有單處理器引擎遇到的問(wèn)題,這里都會(huì)遇到,工作量和復(fù)雜度等挑戰(zhàn)都成數(shù)量級(jí)的提升。
5 軟件人員輕松駕馭的算力:基于軟硬件融合的超異構(gòu)計(jì)算
經(jīng)過(guò)上述各種分析之后,我們給出面向未來(lái)十年的新一代計(jì)算架構(gòu)的一些設(shè)計(jì)目標(biāo)——基于軟硬件融合架構(gòu)(CASH,Converged Architecture of Software and Hardware)的超異構(gòu)計(jì)算:
性能。讓摩爾定律繼續(xù),性能持續(xù)不斷地提升。相比GPGPU,性能再提升100+倍;相比DSA,性能再提升10+倍。
資源效率。實(shí)現(xiàn)單位晶體管資源消耗下的最極致的性能,極限接近于DSA/ASIC架構(gòu)的資源效率。
靈活性。給開(kāi)發(fā)者呈現(xiàn)出的,是極限接近于CPU的靈活性、通用性及軟件可編程性。
設(shè)計(jì)規(guī)模。通過(guò)軟硬件融合的設(shè)計(jì)理念和系統(tǒng)架構(gòu),駕馭10+倍并且仍持續(xù)擴(kuò)大的更大規(guī)模設(shè)計(jì)。
架構(gòu)?;谲浻布诤系某悩?gòu)計(jì)算:CPU + GPU + DSA + 其他各類可能的處理引擎。
生態(tài)。開(kāi)放的平臺(tái)及生態(tài),開(kāi)放、標(biāo)準(zhǔn)的編程模型和訪問(wèn)接口,融合主流開(kāi)源軟件。
與CPU芯片、GPU芯片、DSA芯片的比較如下表:
責(zé)任編輯:lq
-
處理器
+關(guān)注
關(guān)注
68文章
19890瀏覽量
235126 -
cpu
+關(guān)注
關(guān)注
68文章
11077瀏覽量
217030 -
UCIe
+關(guān)注
關(guān)注
0文章
49瀏覽量
1842
原文標(biāo)題:Chiplet UCIe協(xié)議已定,CPU、GPU、DPU混戰(zhàn)開(kāi)啟,未來(lái)路在何方?
文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
技術(shù)資訊 I 完整的 UCIe 信號(hào)完整性分析流程和異構(gòu)集成合規(guī)性檢查

倍加福激光測(cè)距傳感器實(shí)現(xiàn)起重機(jī)準(zhǔn)確定位
新思科技與英特爾攜手完成UCIe互操作性測(cè)試
乾瞻科技UCIe IP設(shè)計(jì)定案,實(shí)現(xiàn)高速傳輸技術(shù)突破
乾瞻科技宣布最新UCIe IP設(shè)計(jì)定案,推動(dòng)高速傳輸技術(shù)突破
解鎖Chiplet潛力:封裝技術(shù)是關(guān)鍵

PCIe 6.0 互操作性PHY驗(yàn)證測(cè)試方案

晟聯(lián)科UCIe+SerDes方案塑造高性能計(jì)算(HPC)新未來(lái)

奇異摩爾32GT/s Kiwi Link Die-to-Die IP全面上市

最新Chiplet互聯(lián)案例解析 UCIe 2.0最新標(biāo)準(zhǔn)解讀

UCIe規(guī)范引領(lǐng)Chiplet技術(shù)革新,新思科技發(fā)布40G UCIe IP解決方案
IMEC組建汽車(chē)Chiplet聯(lián)盟

新思科技發(fā)布40G UCIe IP,加速多芯片系統(tǒng)設(shè)計(jì)
Alphawave推出業(yè)界首款支持臺(tái)積電CoWoS封裝的3nm UCIe IP
是德科技推出PCIe和UCIe仿真解決方案

評(píng)論