无码日本精品久久久久久蜜桃,久久久WWW成人免费毛片,2108中文字幕亚洲

1、摘要

在深度神經(jīng)網(wǎng)絡 (DNN) 和科學計算日益普及的推動下，云和邊緣平臺的利用率正在快速增長[1],[2]。進行人工智能訓練所需的算力呈指數(shù)級增長，每 3.4 個月翻一番。自 2012 年以來，該指標已增加了30多萬倍。然而，這些算法的計算強度相當大，仍然是其實際部署的重大障礙。因此，人們越來越需要提高芯片性能以滿足更高計算能力的需求。芯片的性能與以下三個因素有關：

D代表晶體管密度，一般與制造工藝和器件機制有關。A代表芯片面積，與集成規(guī)模有關。E代表架構因素，反映每個晶體管的性能，通常由芯片的結構決定。我們將上述公式稱為芯片性能的DAE模型。因此，當使用相同的芯片架構時，改善晶體管尺寸和面積是增強芯片性能的兩個關鍵方法。

集成電路 (IC) 的制造工藝在歷史上一直與摩爾定律同步發(fā)展。目前，我們已經(jīng)達到5nm工藝的量產(chǎn)階段，3nm工藝正在穩(wěn)步推進。工藝節(jié)點的每一次突破都帶來了性能的提高和功耗的降低。然而，隨著摩爾定律[2]和登納德縮放比例[3]接近極限，增加集成到單個芯片中的晶體管數(shù)量變得越來越具有挑戰(zhàn)性且成本高昂[4]。

隨著晶體管尺寸的縮小變得越來越困難，集成更多功能單元的一種可行方法是增加芯片面積。然而，擴大單芯片面積時可能出現(xiàn)的一個重要障礙就是我們所說的“面積墻”。面積墻是指由于制造技術和成本的限制引申出的對單個芯片的面積限制。芯片的制造依賴于光刻，芯片面積受到光刻孔徑的限制[5]。由于掩膜版的尺寸和光學器件的物理特性，單個芯片最大曝光區(qū)面積限制為858mm(26mm * 33mm)。要增加最大曝光區(qū)面積，光刻系統(tǒng)必須取得重大進展，而這從成本角度來看是一項挑戰(zhàn)。此外，成本是增加芯片面積的另一個挑戰(zhàn)。在更先進的工藝節(jié)點中，單位芯片面積的成本會增加[6]。最后，對于大面積芯片來說，良率也是一個重大挑戰(zhàn)，這將導致制造缺陷的發(fā)生頻率更高，導致晶圓良率下降[7]。

為了設計一種突破面積墻限制的芯片，我們提出了一種新穎的芯片形式，稱為大芯片。“大芯片”一詞是指面積大于目前最先進光刻機最大曝光區(qū)面積的芯片。這種類型的芯片通常還具有大量晶體管，并使用半導體制造技術來實現(xiàn)。大芯片有兩個特點：首先，大芯片面積大，打破了步進式光刻機的面積限制，將大量晶體管集成到一個芯片中，可以超過當前制造技術下單片芯片上集成的晶體管數(shù)量。其次，大芯片由多個功能裸芯組成，并使用幾種新興的半導體制造技術將預制裸芯集成到大芯片中。Cerebras利用平面制造技術實現(xiàn)晶圓級大芯片，面積達46,225毫米。芯粒集成[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]也是一項有前途的技術，它將多個芯粒組合在單個封裝內(nèi)的中介層或基板上。AMD和Nvidia分別于2019年[12]和2020年[17]推出了基于多芯粒架構的高性能處理器設計。由于芯片面積較大，芯片性能得以大幅提升。

盡管構建大芯片受到廣泛關注，但該領域的綜合分析論文卻稀缺且迫切需要。本文對大芯片進行了詳細分析。首先，我們詳細分析了面積墻，考慮到物理限制、良率和成本。在此分析的基礎上，我們進一步介紹了可用于實現(xiàn)大芯片的潛在技術。其次，我們提出了一個性能模型來指導大芯片的設計和評估。最后，我們給出了基于芯粒技術構建大芯片的架構實現(xiàn)方式以及未來的發(fā)展趨勢。

2. 挑戰(zhàn)：芯片的面積墻

高性能計算系統(tǒng)需要更多的計算能力來支持許多領域的計算密集型工作。更多的計算能力需要更多的集成晶體管，這可以通過更大的芯片面積和更密集的硅結構來實現(xiàn)。然而，由于晶圓成本、良率和更復雜的設計規(guī)則問題，硅結構密度增長最近已經(jīng)放緩。因此，實現(xiàn)更高計算能力的最佳方法是集成更大的芯片。然而，傳統(tǒng)的單片集成存在面積墻問題，阻礙了芯片面積的增長。幸運的是，多芯片集成技術可以顯著削弱面積墻的影響。本節(jié)我們將詳細分析造成面積瓶頸的三個原因。

2.1

光刻曝光區(qū)面積限制

在現(xiàn)代光刻系統(tǒng)[5]、[18]、[19]中，掩膜版在傾斜入射光下曝光，來自掩膜版的攜帶信息的反射光經(jīng)過一組光學器件，最終落在晶圓表面，如圖1所示。晶圓上的曝光圖像實際上是掩膜版上圖像的縮小，給定放大倍數(shù) MAG，晶圓上曝光的圖像尺寸為掩膜版上尺寸的1/MAG。衡量表面上可以收集多少光的重要指標稱為數(shù)值孔徑，其定義為光錐張角一半的正弦值。掩膜版和晶圓表面的數(shù)值孔徑為 , ，其中如圖 1 所示。這兩個數(shù)值孔徑的關系式為[5]：

有兩種選擇可以增加晶圓曝光區(qū)面積，設計更小的光學器件MAG，并增加掩膜版面積。然而，這兩種方案在目前的行業(yè)中都很難實現(xiàn)。

圖 1. 光刻系統(tǒng)演示。

根據(jù)瑞利準則[20]，更先進的工藝節(jié)點要求增加。這使得光學器件無法設計成較小的 MAG，因為根據(jù)公式2，會隨著增大而增大。因此，會變大，并迫使目標處的主光線角（CRAO，如圖 1 所示）變大，這樣入射光錐和反射光錐就不會重疊。然而，較大的 CRAO 會降低圖像質量和掩膜效率。因此，目前大多數(shù)先進的光刻系統(tǒng)都采用 MAG = 4 的光學器件，而更先進的工藝節(jié)點可能需要更大的 MAG。

假設光罩的寬度和長度分別為和，則曝光尺寸可用下式表示：

目前市場上最大的光罩尺寸為 6"，剔除制造余量后的尺寸為 104mm×132mm。由于目前先進的光刻系統(tǒng)的 MAG = 4，因此目前的最大曝光尺寸為 26mm×33mm=858 mm2。需要強調的是，我們的上述分析主要針對硅基芯片制造，并沒有考慮 TFT（薄膜晶體管）制造等工藝。

2.2

良率限制

一直以來，工業(yè)界都在尋求一個精確的模型來預測芯片的良率以指導生產(chǎn)[21]。此外，良率模型對于探索可能的集成水平以指導芯片設計也很重要。人們提出了幾種在不同假設條件下預測良品率的模型。泊松良率模型假定缺陷分布均勻且隨機，這往往會低估大型芯片的良率。Seeds模型引入了指數(shù)分布模擬芯片之間的缺陷密度變化。負二項式模型利用缺陷密度和缺陷聚類現(xiàn)象來確定良率，這種模型被廣泛使用。下式是預測單片芯片良率的負二項模型，其中是取決于工藝節(jié)點的缺陷密度，是缺陷聚類參數(shù)[21]：

在此基礎上，我們提出了通用多芯片系統(tǒng)的良率模型。一般的多芯粒系統(tǒng)可抽象為幾個部分，每個部分又分為個相同的芯粒。中每個芯粒的面積為，其中是的總關鍵面積（關鍵一詞是指排除芯片間模塊），是芯片到芯片面積與關鍵面積之比。由具有缺陷密度和聚類參數(shù) 、的加工節(jié)點制造，其良率可按單片情況預測。我們建議，多芯粒系統(tǒng)的良率由所有部件的最小良率決定。注意，集成過程也會引入潛在的故障，因此集成良率也應計入系統(tǒng)良率。假設鍵合芯粒的成功率為，為芯片 i（由組成）的良率，定義為芯粒 i 的實際良率與目標良率之比：

單片集成在實現(xiàn)較大的芯片面積時，尤其是在工藝節(jié)點先進的情況下，存在良率低的問題。我們認為，在相同的良率目標下，多芯粒集成能比單片集成實現(xiàn)更大的芯片總面積。在此，我們考慮了只有一個部件 P 的 K-chiplet 系統(tǒng)，并將其與單片芯片進行比較。K-chiplet 系統(tǒng)良率的計算公式為

通過良率模型的反函數(shù)，我們可以分別建立單片系統(tǒng)和 K-chiplet 系統(tǒng)所能達到的最大關鍵面積模型如下：

由于多芯粒系統(tǒng)的良率肯定小于鍵合良率，因此 Y 存在一個內(nèi)部約束條件，即Y

圖 2 顯示了在給定良率限制（橫軸）下，使用單片和芯粒集成技術可實現(xiàn)的最大關鍵面積（縱軸）。在相同的成品率限制下，使用更多芯粒進行集成通常能獲得更大的關鍵面積。此外，多芯粒系統(tǒng)還能輕松突破單片芯片的物理面積限制（虛線標記）。

圖 2. 在良率限制下可制造的最大關鍵面積（平方毫米）。左圖和右圖分別顯示 5 納米和 14 納米工藝。水平虛線表示 858 平方毫米的物理單片芯片面積上限。

2.3

成本限制

制造成本可根據(jù)集成系統(tǒng)各部分的良率和原料成本估算。對于單片芯片，成本可以簡單地用裸片良率和裸片成本估算，其中良率用于攤銷失效裸片的成本。對于多芯粒系統(tǒng)，如文獻[6]、[7]、[22]、[23]所述，成本計入多個組成部件和集成過程。我們對單片系統(tǒng)和多芯粒系統(tǒng)的制造成本建模如下：

其中Gdie、Gint、分別為單位面積芯片和插層的原始成本。是將單位面積芯片鍵合到集成電路上的成本。

根據(jù)這一成本模型，我們再次比較單片系統(tǒng)和 K-chiplet系統(tǒng)的成本效率，如圖 2 所示。我們將晶體管數(shù)量建模為晶體管密度乘以關鍵面積，并在圖 3 中繪制出每個晶體管的成本。我們還在圖 4 中繪制了系統(tǒng)成本的對比圖。

圖 3. 采用 5 納米（左）和 14 納米（右）工藝節(jié)點的不同關鍵面積（平方毫米）時每個晶體管的成本。成本已歸一化為圖中最小單片芯片的成本。

圖 4. 采用 5 納米（左）和 14 納米（右）工藝節(jié)點的不同關鍵面積（平方毫米）時的系統(tǒng)成本（任意單位）。

對于成熟的工藝節(jié)點（見圖 3 和圖 4 中的 14 納米），單片系統(tǒng)的單位晶體管成本和系統(tǒng)成本均低于多芯粒系統(tǒng)。然而，對于新節(jié)點和先進節(jié)點，多芯粒系統(tǒng)在關鍵面積較大的情況下成本更低。請注意，在圖中，我們沒有顯示超過 858 平方毫米（虛線）的關鍵面積，因為它只能通過芯粒集成來實現(xiàn)。同時，芯粒越多的系統(tǒng)成本曲線增長越平滑，這表明在實現(xiàn)足夠大的關鍵面積時，芯粒越多的系統(tǒng)成本優(yōu)勢越明顯。

3. 技術：打破面積墻

大芯片由超過萬億個晶體管和數(shù)千平方毫米的面積（超過一個掩膜版）組成，目前可采用兩種方法實現(xiàn)。第一種方法是芯粒集成，即在中介層或基板上將多個芯粒組合在單個封裝中。2018 年，AMD 提出了 EPYC 處理器，利用 MCM（多芯片模塊）技術集成了四個相同的芯粒[24]。華為也提出了基于芯片集成的服務器 SoC 系列[25]。通過臺積電 CoWoS 技術，鯤鵬 920 SoC 系列集成了多個不同功能的芯粒。第二種方法是晶圓級集成（WSI），即用整個硅晶圓構建超大型集成電路。1980 年，Trilogy System 為 IBM 大型機進行了晶圓級集成的早期嘗試[26]。這種集成將芯片間的通信放在晶圓上，從而降低了芯片間通信的延遲和功耗。

然而，良率和光刻問題導致 Trilogy System 的晶圓級集成失敗[26]。Cerebras System 于 2019 年實現(xiàn)了晶圓級引擎-1（WSE-1）[27]，并于 2021 年實現(xiàn)了晶圓級引擎-2（WSE-2）[28]。這兩種方法都能大大提高芯片的性能。然而，大芯片的設計和實現(xiàn)也面臨著一些挑戰(zhàn)，包括制造和封裝、設計成本和 IP 重用、良率和散熱。在下面的章節(jié)中，我們將深入探討這些挑戰(zhàn)以及芯片集成和晶圓級集成所提供的解決方案。

制造和封裝。在大芯片中，確保裸片封裝具有高性能和可靠的裸片間互連非常重要。在標準制造中，劃線是將芯片與相鄰芯片分開的區(qū)域。為了實現(xiàn)晶圓級集成，需要在劃片線上鋪設大量導線，以實現(xiàn)晶圓上的芯片互連。例如，Cerebras System WSE-1[27]使用了最新提出的臺積電 InFO_SoW 封裝技術[29]，如圖 5（a）所示，在刻線上添加導線，實現(xiàn)了網(wǎng)狀互連，其線路密度和帶寬密度是 MCM 的 2 倍。芯片設計不需要在刻線上添加導線來連接芯片，而是在有機基板或硅插層[24]、[30]上實現(xiàn)裸片之間的通信，從而提供更靈活、更多樣化的芯片布局選擇。封裝是晶圓級集成的另一個挑戰(zhàn)。在考慮大規(guī)模晶圓和 PCB 的封裝時，有必要減輕晶圓和 PCB 因受熱而產(chǎn)生的不同熱膨脹的影響，從而提高封裝的可靠性[27]。此外，在封裝過程中還必須考慮大型晶圓和 PCB 之間相互作用造成的影響，如機械應力。

為了提高封裝性能，一些緩沖應力的元件（如連接器）被用來緩解這些問題[27]。然而，額外引入的連接器增加了封裝的難度。需要確保晶片、連接器和印刷電路板之間的凸點精確對齊。目前，還沒有一種可靠的封裝工具能保證這種對齊要求，因此需要重新開發(fā)一種新的定制封裝工具[27]。如圖 5(b)[4]所示，片式集成提供了多種成熟且經(jīng)過驗證的 2D/2.5D/3D 封裝技術，這些片式封裝的可靠性也已在一些研究中得到證實[31]，[32]。

圖 5. 芯片級集成與晶圓級集成的制造和封裝比較[4], [29]。

設計成本和 IP 重用。在構建大芯片時，需要考慮設計時間和相關成本，其中 IP 重用是幫助降低設計成本的常用方法。由于晶圓級集成是在同一晶圓上實現(xiàn)所有芯片，因此晶圓上的每個芯片都是通過相同的工藝實現(xiàn)的[27]。這導致系統(tǒng)設計存在兩個缺陷。首先，晶圓級集成降低了使用成熟且先進的工藝的可能性。其次，晶圓級集成的特點是系統(tǒng)緊密，晶圓上的芯片很難作為功能組件重復使用[33]。芯片 IP 重用方案如圖 6 所示。系統(tǒng)應用被分解成許多基本功能裸芯，然后進行邏輯組合和物理集成。

與晶圓級集成相比，芯粒封裝技術支持對異構工藝制造的芯片進行集成。它允許以高性能為目標的重要工藝單元通過先進工藝來實現(xiàn)，而其他單元（例如IO）可以通過成熟工藝來實現(xiàn)，從而提高計算能力并最小化成本[34]。此外，所實現(xiàn)的芯粒作為預組件或IP，可以在下一代設計中重復使用，這顯著縮短了設計時間并降低了設計成本[35]。因此，chiplet集成通過IP復用帶來了降低設計成本的突出優(yōu)勢。

圖6 芯粒IP 復用表

良率?；诙嘈玖Ｏ到y(tǒng)的大芯片的整體良率是一個更值得關注的因素。Chiplet集成和晶圓級集成分別引入了Known Good Die（KGD）[36]方法和冗余設計[27]來提高整體良率。由于器件和環(huán)境因素的影響，很難保證晶圓上的每個芯片都是好的，這意味著對于晶圓級集成來說，不可避免地會導致晶圓上的芯片出現(xiàn)缺陷。此外，由于一些晶圓級集成設計在劃片中添加了互連線，因此劃片區(qū)域中出現(xiàn)的缺陷也會損害良率。為了解決良率挑戰(zhàn)，Cerebras 提出了冗余設計，其中包括 1.5%額外的核心[27]。作為類似的晶圓級集成設計，Trilogy System的芯片引入了2倍冗余設計[26]。這種冗余設計允許禁用有缺陷的芯片，然后用冗余芯片替換，冗余芯片與其他良好芯片的鏈接將在結構上重建，從而避免由于有缺陷的芯片而導致片上網(wǎng)絡和通信的性能下降。

然而，冗余設計和重新連接增加了設計開銷，并且需要設計者和代工廠之間緊密的協(xié)同設計。相反，芯粒技術有利于提高整體良率。芯粒有兩個方面的良率提升。第一個是通過減小單個芯片尺寸來提高良率[37]?；谛玖＜夹g，可以用小芯片集成大芯片。隨著芯片尺寸變小，良率也會提高。提高良率的第二個層次是使用已知良好芯片（KGD）[36]進行封裝。芯粒技術不是從晶圓上切割最大的正方形，而是從晶圓上切割單個芯片，只允許封裝通過老化測試的單個芯片，從而提高良率。

散熱。隨著大芯片中集成的晶體管數(shù)量越來越多，芯片的功耗猛增，大芯片的功耗可以大得驚人。因此，散熱就成為一個關鍵問題。在晶圓級集成中，WSE [27]開發(fā)了冷平面和定制連接器來解決散熱和熱效應。熱量通過水和芯片之間的接觸而被帶走。在當前的芯粒集成中，引入散熱器來散熱[30]。與帶有大型水冷系統(tǒng)的晶圓級集成相比，帶有小型散熱器的芯粒集成的散熱解決方案在移動和邊緣應用中更加靈活。

4. 模型：評估大芯片

4.1

性能需求模型

大芯片系統(tǒng)的巨大規(guī)模帶來了新的挑戰(zhàn)，例如對內(nèi)部芯粒的片外訪問和長距離通信的限制。高度的可定制性以及廣泛的集成技術和架構使得很難確定特定市場的最佳設計[38]。在這種情況下，需要一個通用性能模型來深入了解大芯片設計的關鍵方面，并為架構改進提供指導，包括集成技術選擇、并行性、互連和內(nèi)存層次結構設計、片外帶寬等

我們提出了一個性能模型來表征不同規(guī)模區(qū)域的性能瓶頸。盡管并不完美，但該模型提供了對關鍵方面的見解，可以提高給定設計的性能上限。我們首先解釋如何推斷該模型，重點關注數(shù)據(jù)通信和并行性，這是決定系統(tǒng)性能的關鍵因素。然后，我們確定了提高不同區(qū)域峰值性能的方法，并說明了模型在某些方法下如何變化。

4.2

性能模型外推

我們研究大芯片系統(tǒng)擴展時的性能變化。為了兼顧數(shù)據(jù)通信和并行性等方面，我們選擇面積（A）作為表示系統(tǒng)規(guī)模變化的變量。造成整個系統(tǒng)處理延遲的主要因素有三個，即計算、片外訪問和芯片間（或內(nèi)核間）通信。這三個部分的延遲可簡單計算為：

其中，CA 指計算能力，BWoff-chip指芯片外帶寬，BWintra-chip指芯片間或內(nèi)核間帶寬。其中，αoff-chip和 αintra-chip是歸一化的數(shù)據(jù)移動量，分別表示每次計算（以 B/op 為單位）從片外存儲器和芯片（或內(nèi)核）之間移動的數(shù)據(jù)量。

現(xiàn)在，我們需要弄清楚CA、BWs和A之間的關系。隨著系統(tǒng)規(guī)模的擴大，采用特定設計的大芯片的計算能力呈線性增長。其關系可表示為：

cd指的是計算元件的密度，fcomputing指的是計算頻率。在某種設計中，可以通過將芯片（或內(nèi)核）中的計算元件數(shù)量按其面積劃分來估算cd。

芯片外訪問帶寬與芯片周長成正比，因為 I/O 布置在芯片邊緣。如果我們將 I/O 密度視為特定設計，那么芯片外帶寬與面積之間的關系可估算為：

其中，bωof f-chip表示沿芯片邊緣的芯片外帶寬密度，單位為 GB ps/mm。它也可以表示為 I/O 密度與數(shù)據(jù)傳輸頻率的乘積。

當涉及芯片間或內(nèi)核間通信延遲，有兩個基本假設。第一個假設是總線上的數(shù)據(jù)傳輸是同時進行的。在這種假設下，片內(nèi)通信延遲應該是所有總線延遲中的最大值：

第二個假設是，大芯片系統(tǒng)的擴展主要取決于相同基線設計的重復性，基線設計可以是芯片或內(nèi)核的設計。那么，每個基線設計的帶寬（即等式 11 中的BWi）可視為常數(shù)。因此，芯片內(nèi)通信延遲可表示為：

然后，我們推斷總延遲與這三個決定性部分的關系。在此，我們引入了另一個與上述第一個假設類似的新假設，即計算、芯片外訪問和芯片內(nèi)通信同時運行。那么我們有：

由于性能與延遲成反比，我們可以得出：

這是在估算延遲時的一個極端假設，還有另一個極端假設，即這三個操作是完全相繼進行的。那么總延遲等于所有三部分延遲的總和。實際情況介于這兩個極端之間。即使在這種極端情況下，我們也可以假設每個區(qū)域都有一個部分主導總延遲，那么表達式就與公式 14 相同。將等式 9、10 和 12 代入等式 14，我們就得到了作為芯片面積函數(shù)的最終性能模型：

這三個部分的分別是與面積成正比、與面積的平方根成正比和隨面積變化而不變。在其他參數(shù)取值不同的情況下，性能模型的趨勢應該有三種可能，如圖 7 所示。在圖 7（a）所示的平衡模式中，性能模型被劃分為 3 個區(qū)域。在芯片面積較小的第一個區(qū)域，計算能力不足是性能的關鍵瓶頸。隨著系統(tǒng)規(guī)模的擴大，片外訪問阻礙了并行計算資源增加所帶來的性能增長。在這一區(qū)域，性能以越來越慢的趨勢持續(xù)增長，當片內(nèi)通信發(fā)揮主導作用時，性能達到頂峰。在計算密集型和計算稀疏型模式中，計算資源的充足與否導致沒有計算主導或片外主導區(qū)域，如圖 7(b) 和 7(c) 所示。

圖 7. 性能模型的三種可能趨勢。

4.3

與單片多核和多芯片系統(tǒng)的比較

我們將芯粒系統(tǒng)的性能模型與單片多核和多芯粒系統(tǒng)的性能模型進行比較，以證明大芯片系統(tǒng)的性能優(yōu)勢。我們使用的基線設計參數(shù)來自AMD的“Zepplin”SoC及其第一代EPYC TM 芯粒處理器[39]。我們假設三個系統(tǒng)的計算能力和片外訪問是相同的，那么唯一的區(qū)別在于“片內(nèi)通信”區(qū)域。芯粒間和芯片間通信由“Zepplin”SoC 上配備的無限結構 (IF) 和 PCIe 分別提供[39]，片外帶寬密度通過將其兩通道 DDR4 帶寬除以SoC 的長邊長度。我們設置αoff-chip和αintra-chip分別為 6 和 4。性能曲線如圖8所示。

圖 8. 芯粒組、單片多核和多芯片系統(tǒng)的性能模型比較。

理想情況下，由于內(nèi)核間帶寬的限制較少，單片芯片比其他兩個系統(tǒng)具有更高的峰值性能。然而，單片設計面臨著步進式光刻機最大區(qū)域尺寸帶來的“區(qū)域墻”的巨大挑戰(zhàn)，這阻礙了性能的增長。為了繼續(xù)系統(tǒng)擴展，轉而采用傳統(tǒng)工藝下的多芯片集成技術，在性能曲線上表現(xiàn)為隨著面積的增加，漸近線向多芯片設計線發(fā)展（圖中未標出這一趨勢）。由此，我們可以推斷出大芯片系統(tǒng)的高性能可擴展性的優(yōu)勢。

4.4

性能優(yōu)化

性能優(yōu)化方法通?？煞譃槿齻€層次：工作負載映射、架構和物理設計。在性能模型中，優(yōu)化表現(xiàn)為曲線函數(shù)或位置的變化。在接下來的章節(jié)中，我們將首先以三維堆疊為例，闡明物理設計如何改變性能曲線的形狀，然后說明αoff-chip和αintra-chip在我們的模型中扮演的角色及其主導因素。

模型形狀的優(yōu)化。我們采用Tetris 芯粒加速器[40]的2D集成和3D堆疊實現(xiàn)來證實物理設計，特別是集成技術，通過改變性能曲線的形狀來從根本上優(yōu)化芯片性能。

2D 和 3D 實現(xiàn)的主要區(qū)別在于片外訪問方式。2D Tetris使用 LPDDR3，符合等式 10 中的關系。3D Tetris使用混合存儲器立方體（HMC）[41], [42]作為三維存儲器基板，與邏輯芯片垂直面對面堆疊，通過高速硅通孔（TSV）通信，那么片外帶寬應與面積成正比，如公式 16 所示。

這里，bwoff-chip,area的單位是GBps/mm2

如圖 9 所示，我們可以得到兩種實現(xiàn)方式的性能模型，其中芯片間帶寬來自傳統(tǒng)的 HMC 設計。由于采用了高度并行的處理元件，雖然頻率不是很高（500MHZ）[40]，但計算能力非常強，因此在這兩種方案中都不會成為瓶頸。

圖 9. Tetris二維集成設計和三維堆疊設計的性能模型對比。三維堆疊優(yōu)化改變了模型曲線的形狀。

雖然 3D 實現(xiàn)仍然受到最大硅片面積的限制，但與 2D 設計相比，3D 實現(xiàn)的片外瓶頸區(qū)域大大縮小，即使芯片面積較小，也能輕松達到峰值性能，這歸功于 3D 存儲器堆疊技術提供的豐富布線資源和高速傳輸。從這個例子中我們可以看出，一項設計工作可能不會對系統(tǒng)的性能做出貢獻，但卻能在設計者感興趣的區(qū)域帶來突出的改進。

αoff-chip和αintra-chip的作用。αoff-chip指芯片與芯片外存儲器之間傳輸?shù)臄?shù)據(jù)量，αintra-chip指通過總線互連的兩個芯粒或內(nèi)核之間傳輸?shù)淖畲髷?shù)據(jù)量。雖然它們都是與數(shù)據(jù)量有關的變量，而且在上文的討論中假定它們與芯片面積保持不變，但它們會受到芯片內(nèi)存容量和互連結構等架構設計的影響。

αoff-chip取決于應用，即計算所需的數(shù)據(jù)量、工作負載映射、調度策略以及架構設計，尤其是芯片內(nèi)存容量。片外訪問的數(shù)據(jù)量由兩部分組成：由工作負載所需的數(shù)據(jù)量決定的恒定部分，以及由無效的工作負載映射策略或片上內(nèi)存容量不足造成的冗余部分。隨著映射和片上內(nèi)存比例的改善，數(shù)據(jù)局部性可以得到優(yōu)化，αoff-chip也會相應降低，然后在片外區(qū)域出現(xiàn)性能曲線，如圖 10（a）所示。

圖 10. αoff-chip和αintra-chip的影響。

αintra-chip由應用、芯片內(nèi)存容量和互連結構決定。應用和片上存儲器會影響每個芯片上的數(shù)據(jù)位置。互聯(lián)結構的影響可以從更廣闊的角度來闡述?？紤]到在兩個節(jié)點之間傳輸固定數(shù)量的數(shù)據(jù)，它們之間的路由越多，分配到每條路由上的數(shù)據(jù)就越少，從而導致每條總線傳輸?shù)臄?shù)據(jù)量減少，最大值也是如此。與網(wǎng)狀設計相比，Cmesh 是一種能實現(xiàn)較低αintra-chip值的互連設計。αintra-chip值的降低可提高芯片設計的峰值性能。

5. 架構：構建大芯片

大芯片的架構設計對性能有重大影響，與內(nèi)存訪問模式密切相關。在內(nèi)存訪問模式方面，與傳統(tǒng)的多核處理器設計考慮將多核集成在單個裸片上訪問內(nèi)存不同，大芯片設計側重于多個多核裸片訪問內(nèi)存系統(tǒng)。根據(jù)內(nèi)存訪問模式，大芯片可以分為對稱芯粒架構、NUMA（非均勻內(nèi)存訪問）芯粒架構、集群芯粒架構和異構芯粒架構。在接下來的章節(jié)中，我們將以利用芯粒技術構建大芯片為例，從性能、可擴展性、可靠性、通信等方面討論這些大芯片架構的特點。

對稱芯粒架構。如圖 11（a）所示，對稱芯粒架構由許多相同的計算芯粒組成，它們通過路由器網(wǎng)絡或芯粒間資源（例如中介層）訪問共享的統(tǒng)一存儲器或IO。芯粒可以設計為具有本地緩存的多核結構，或者具有多個處理元件的NoC結構。統(tǒng)一內(nèi)存可以被所有芯粒平等地訪問，這體現(xiàn)了UMA（統(tǒng)一內(nèi)存訪問）的效果。我們現(xiàn)在討論對稱芯粒架構的三個主要優(yōu)點。首先，對稱芯粒架構允許多個芯粒執(zhí)行指令以提供高計算能力。工作負載可以分成小塊，然后分配給不同的芯粒，以加快應用程序的執(zhí)行速度，同時保持不同芯粒之間的工作負載平衡。其次，這種對稱的芯粒架構提供了從不同芯粒到內(nèi)存的統(tǒng)一延遲，無需考慮NUMA等分布式共享內(nèi)存系統(tǒng)中的遠程訪問或內(nèi)存復制，從而節(jié)省了由于不必要的數(shù)據(jù)移動而導致的延遲和能耗。第三，對稱芯粒處理器還提供冗余設計，其他芯?？梢越庸芄收闲玖５墓ぷ?，從而提高系統(tǒng)可靠性。由于共享內(nèi)存，對稱芯粒處理器可以在不增加額外私有內(nèi)存的情況下增加芯粒的數(shù)量。

然而，當對稱芯粒架構繼續(xù)擴大芯粒數(shù)量時，互連設計將受到物理布線的嚴重限制。解決高帶寬芯粒間通信和內(nèi)存請求沖突也具有挑戰(zhàn)性。請注意，增加芯粒的數(shù)量可能會增加不同芯粒對存儲器的請求沖突，這會損害系統(tǒng)性能。平均而言，內(nèi)存帶寬由芯粒劃分。增加芯粒的數(shù)量會減少每個芯粒分區(qū)內(nèi)存帶寬。工業(yè)界和學術界的一些設計采用了對稱芯片架構。Apple M1 Ultra 處理器[43]采用了芯粒集成設計，具有兩個相同的 M1 Max 芯片，具有統(tǒng)一的內(nèi)存架構設計。芯片上的核心可以訪問高達 128GB 的統(tǒng)一內(nèi)存。Fotouhi[44]提出了一種基于芯粒集成的統(tǒng)一內(nèi)存架構，以克服距離相關的功耗和延遲問題。Sharma [45]提出了一種通過板載光學互連共享統(tǒng)一存儲器的多芯片系統(tǒng)。

圖 11. 大芯片處理器的架構。

圖 12. 大芯片不同架構之間的比較。

NUMA-芯粒架構。NUMA芯粒架構包含通過點對點網(wǎng)絡或中央路由器互連的多個芯粒，并且NUMA芯粒架構的存儲器系統(tǒng)由所有芯粒共享但分布在架構中，如圖11 (b)所示。芯?？梢圆捎霉蚕砭彺娴亩嗪嗽O計，或者通過NoC互連的PE的設計。而且，每個芯粒可以占用自己的本地存儲器，例如DRAM、HBM等，這是其區(qū)別于對稱芯粒架構的最明顯特征。盡管這些連接到不同芯粒的存儲器分布在系統(tǒng)中，但存儲器地址空間是全局共享的。共享內(nèi)存的這種分布式放置會導致 NUMA 效應，即訪問遠程內(nèi)存比訪問本地內(nèi)存慢[46]。NUMA-芯粒架構考慮了一些優(yōu)點。從單個芯粒的角度來看，每個芯粒都擁有自己的內(nèi)存，具有相對私有的內(nèi)存帶寬和容量，減少了與其他芯粒的內(nèi)存請求的沖突。此外，芯片與內(nèi)存的緊密放置提供了數(shù)據(jù)移動的低延遲和低功耗。

此外，在NUMA-芯粒架構中，通過高帶寬點對點網(wǎng)絡或路由器互連的多個芯?？梢圆⑿袌?zhí)行任務，從而提高系統(tǒng)性能和兼容性。這種 NUMA 芯粒架構具有很高的可擴展性，因為每個芯粒都有自己的內(nèi)存。然而，隨著 NUMA-芯粒架構擴展到更多的芯粒，設芯粒到芯粒互連網(wǎng)絡變得具有挑戰(zhàn)性。

此外，隨著芯粒數(shù)量的增加，編程模型的成本和難度也隨之增加。有一些設計采用 NUMA-芯粒架構。AMD 的第一代 EPYC 處理器將四個相同的芯粒與本地內(nèi)存連接起來[39]。對內(nèi)存的本地訪問和遠程訪問之間的延遲差異可達 51ns [46]。

在AMD的第二代EPYC處理器中，計算芯粒通過IO芯粒連接到內(nèi)存，這顯示了NUMA-芯粒架構[34]。另一種典型的 NUMA-芯粒架構設計是 Intel Sapphire Rapids [47]。它由四個芯粒組成，通過 MDFIO（多芯片結構 IO）連接。四個芯粒組織為 2x2 陣列，每個芯片充當 NUMA 節(jié)點。Zaruba [48]架構了 4 個基于 RISC-V 處理器的芯粒，每個芯粒都有三個分別與其他三個芯粒的鏈接，以提供非統(tǒng)一的內(nèi)存訪問。

集群芯粒架構。如圖 11(c)所示，集群芯粒架構包含許多芯粒集群，總共有數(shù)千個核心。采用環(huán)形、網(wǎng)狀、一維/二維環(huán)面等高速或高吞吐量網(wǎng)絡拓撲來連接集群，以滿足此類超大規(guī)模系統(tǒng)的高帶寬和低延遲通信需求。每個集群由許多互連的芯粒和單獨的內(nèi)存組成，并且每個集群都可以運行單獨的操作系統(tǒng)。集群可以通過消息傳遞的方式與其他集群進行通信。通過高性能互連實現(xiàn)強大集群互連的集群-芯粒架構顯示出高可擴展性并提供巨大的計算能力。作為一種高度可擴展的架構，集群芯粒架構是許多設計的基礎。IntAct [30]集成了 96 個內(nèi)核，這些內(nèi)核在有源中介層上分為 6 個芯粒。6 個芯粒通過 NoC 連接。Tesla[49]發(fā)布了用于億級計算的Dojo系統(tǒng)微架構。在 Dojo 中，一個訓練圖塊由 25 個 D1 芯粒組成，這些芯粒排列為 5x5 矩陣樣式。通過 2D 網(wǎng)格網(wǎng)絡互連的許多訓練塊可以形成更大的系統(tǒng)。Simba[1]通過 MCM 集成，利用網(wǎng)狀互連構建了 6x6 芯粒系統(tǒng)。芯粒內(nèi)的 PE 使用 NoC 連接。

異構芯粒架構。異構芯粒架構由不同種類的芯粒組成，如圖11（d）所示。同一中介層上的不同種類的芯?？梢耘c其他種類的芯?；パa，協(xié)同執(zhí)行計算任務。華為鯤鵬920系列SoC[25]是基于計算芯粒、IO 芯粒、AI 芯粒等的異構系統(tǒng)。Intel Lakefield[50]提出了將計算芯粒堆疊在基礎芯粒上的設計。計算芯粒集成了許多處理核心，包括CPU、GPU、IPU（基礎設施處理單元）等，基礎芯粒包含豐富的IO接口，包括PCIe Gen3、USB type-C等。在Ponte Vecchio[51]中，有兩個基礎tile使用EMIB（嵌入式多芯片互連橋）互連。計算tile和 RAMBO tile堆疊在每個基礎tile上。Intel Meteor Lake處理器[52]集成了GPU tile、CPU tile、IO tile和SoC tile。

對于當前和未來的億億級計算，我們預測分層芯粒架構將是一種強大而靈活的解決方案。如圖11 （e）所示，分層芯粒架構被設計為具有分層互連的多個內(nèi)核和多個芯粒。在芯粒內(nèi)部，內(nèi)核使用超低延遲互連進行通信，而芯粒之間則以得益于先進封裝技術的低延遲互連，從而在這種高可擴展性系統(tǒng)中實現(xiàn)片上延遲和NUMA效應可以最小化。存儲器層次結構包含核心存儲器、片內(nèi)存儲器和片外存儲器。這三個級別的內(nèi)存在內(nèi)存帶寬、延遲、功耗和成本方面有所不同。在分層芯粒架構的概述中，多個核心通過交叉交換機連接并共享緩存。這就形成了一個pod結構，并且pod通過芯粒內(nèi)網(wǎng)絡互連。多個pod形成一個芯粒，芯粒通過芯粒間網(wǎng)絡互連，然后連接到片外存儲器。需要仔細設計才能充分利用這種層次結構。合理利用內(nèi)存帶寬來平衡不同計算層次的工作負載可以顯著提高芯粒系統(tǒng)效率。正確設計通信網(wǎng)絡資源可以確保芯粒協(xié)同執(zhí)行共享內(nèi)存任務。

6. 構建大芯片：我們的實現(xiàn)

為了探索大芯片的設計和實現(xiàn)技術，我們架構和設計了一個基于 16 芯粒的 256 核處理器系統(tǒng)，命名為浙江大芯片。在此，我們將介紹所提出的大芯片處理器。

浙江大芯片采用可擴展的基于瓦片的架構，如圖13所示。該處理器由 16 個小芯粒組成，并且有可能擴展到 100 個小芯粒。每個芯粒中都有16個CPU 處理器，通過片上網(wǎng)絡(NOC) 連接，每個tile 完全對稱互連，以實現(xiàn)多個芯粒之間的通信。CPU處理器是基于RISC-V指令集設計的。此外，該處理器采用統(tǒng)一內(nèi)存系統(tǒng)，這意味著任何tile上的任何核心都可以直接訪問整個處理器的內(nèi)存。

圖 13. 浙江大芯片概況

為了連接多個小芯粒，采用了芯片間 (D2D) 接口。該接口采用基于時分復用機制的通道共享技術進行設計。這種方法減少了芯片間信號的數(shù)量，從而最大限度地減少了 I/O 凸塊和內(nèi)插器布線資源的面積開銷，從而可以顯著降低基板設計的復雜性。小芯粒終止于構建微型 I/O 焊盤的頂部金屬層。浙江大芯處理器采用22 nm CMOS工藝設計和制造。

7. 前景與挑戰(zhàn)

除了提高計算能力，大芯片還將促進新型設計方法的發(fā)展。我們預測，近存計算和光電計算將是重要的研究方向。

7.1

近存計算

由于計算工作量大量集中在芯粒中，片外存儲系統(tǒng)通常具有簡單的存儲數(shù)據(jù)和IO的功能。對于數(shù)據(jù)局部性較差的應用，頻繁發(fā)生片內(nèi)緩存未命中，導致需要從片外存儲器重新加載數(shù)據(jù)。大量芯粒和內(nèi)存之間頻繁的數(shù)據(jù)移動可能會導致額外的延遲和高能耗。在對稱芯粒架構中，總線擁塞會使這種情況惡化，從而降低系統(tǒng)性能。為了解決這些問題，可以使用近數(shù)據(jù)處理來引入近存計算，將處理和內(nèi)存單元與高帶寬互連緊密放置，以最大限度地提高系統(tǒng)性能。近存計算打破了傳統(tǒng)內(nèi)存層次結構的性能限制。3D 堆棧內(nèi)存是近存計算的一個很好的例子，其作為容量、帶寬和性能限制的解決方案而受到越來越多的關注。

在3D堆疊存儲器中，多個DRAM芯粒垂直堆疊在底部邏輯芯粒上，TSV實現(xiàn)芯粒之間的電氣連接，表現(xiàn)出芯粒間數(shù)據(jù)傳輸?shù)母邘?。位于堆疊存儲器底部的邏輯芯?？梢赃M行相對簡單的數(shù)據(jù)處理，承擔部分計算工作量。近存計算的另一種方法是增加片內(nèi)緩存的容量，以在片上保留更多數(shù)據(jù)，而不是頻繁調度片內(nèi)和片外數(shù)據(jù)。AMD提出了3D V-cache技術，在Zen3共享的32MB L3緩存上堆疊64MB緩存，總共實現(xiàn)96MB L3緩存。Cerebras WSE 甚至實現(xiàn)了 18GB 片上內(nèi)存。

7.2

光電子計算

光電子計算已成為解決電氣設計瓶頸的潛在方案，尤其是用于芯片間通信的電氣 IO，隨著高帶寬需求的增加，這一瓶頸變得更加突出[53]、[54]、[55]。目前，電氣互連的數(shù)據(jù)速率、引腳數(shù)和引腳間距都受到串擾等信號完整性問題的限制。此外，一些引腳被保留用于電源/接地引腳等非通信目的，進一步降低了引腳利用率，加劇了阻礙芯片間高帶寬通信的互連物理限制。然而，限制芯粒之間的距離可能會導致與遠程芯粒通信的多跳，這進一步影響系統(tǒng)性能。

本文定義的光 IO 處理器是未來的一項重要技術，它利用 IO 芯片和光學設備促進高帶寬通信。光 IO 處理器能克服傳統(tǒng)電氣互連的信號完整性限制，使其成為解決上述電氣設計問題的有吸引力的解決方案。研究[53]、[54]、[55]、[56]、[57]說明了高性能、低能耗光 IO 實現(xiàn)和封裝的可行性。

7.3

挑戰(zhàn)

大芯片雖然可以實現(xiàn)強大的計算能力，但仍面臨良率、散熱和性能等主要挑戰(zhàn)。首先，大芯片的集成步驟較多，受器件、技術、環(huán)境等因素影響，難以保證高良率。雖然 KGD 等方法可以提高良率，但也必須考慮缺陷芯片的設計成本。其次，散熱是大芯片設計中的一個重要問題，大量芯片會產(chǎn)生大量熱量。因此，散熱系統(tǒng)和低功耗設計至關重要。最后，大芯片設計中的任務映射和設計空間探索實施起來具有挑戰(zhàn)性。此外，在芯粒集成中，必須考慮不均勻帶寬效應。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴