久久欧美aⅴ无码精品色午夜麻,夜夜嗨一区二区无码精品区,欧洲黄色在线视频

本文編譯自：Semiengineering

全球領先的超大規(guī)模云數(shù)據(jù)中心公司——Amazon, Google, Meta, Microsoft, Oracle,Akamai——正在推出專門針對云計算的異構多核架構，對整個芯片行業(yè)的高性能 CPU 開發(fā)產(chǎn)生了影響。

這些芯片都不太可能進行商業(yè)銷售。它們針對特定的數(shù)據(jù)類型和工作負載進行了優(yōu)化，設計預算龐大，但可以通過提高性能和降低功耗來實現(xiàn)合理化。目標是在更小的面積上容納更多的計算能力，同時降低冷卻成本，而實現(xiàn)這一目標的最佳途徑就是采用定制化架構、緊密集成的微架構和精心設計的數(shù)據(jù)流。

這一趨勢始于近十年前，當時 AMD 開始采用異構架構和加速處理單元，取代了過去的同質(zhì)多核 CPU 模式，但起步緩慢。此后，異構架構開始興起，緊隨為移動消費設備設計的腳步，這些設備需要處理非常緊湊的占地面積以及嚴格的功耗和散熱要求。

Quadric營銷副總裁 Steve Roddy 表示：“英特爾等行業(yè)巨頭的單片芯片幾乎在每個產(chǎn)品代碼中都配備了 AI NPU?！?“當然，人工智能先驅(qū) NVIDIA 長期以來一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、CUDA內(nèi)核和Tensor內(nèi)核。未來幾年向 chiplet 的轉(zhuǎn)變將徹底鞏固這一過渡，因為指定chiplet組合的系統(tǒng)購買者可以挑選為相關設計插座量身定制的計算和互連類型。"

這很大程度上歸因于物理學和由此產(chǎn)生的經(jīng)濟學。隨著擴展優(yōu)勢的縮小，以及先進封裝技術的成熟 --它允許在設計中添加更多的定制功能，而過去這些功能受限于掩膜尺寸--每瓦特和每美元性能的競爭已進入白熱化階段。

"西門子 EDA IC 部門市場總監(jiān) Neil Hand 說："如今，每個人都在構建自己的架構，尤其是數(shù)據(jù)中心企業(yè)，而處理器架構很大程度上取決于工作負載的情況。"與此同時，這些開發(fā)人員也在詢問加速的最佳途徑是什么，因為有很多方法可以做到這一點。你可以選擇使用具有多個內(nèi)核的并行路線，這在某些情況下行不通，但在另一些情況下卻很有效。與此同時，應用對內(nèi)存帶寬的限制越來越大，因此你會發(fā)現(xiàn)一些高性能計算公司開始把所有精力都花在內(nèi)存控制器上。還有一些公司會說：'這實際上是一個分解問題，我們要走加速器路線，擁有獨立的內(nèi)核。'但我不認為存在一刀切的做法。"

Roddy 指出，這些新型超級芯片內(nèi)的 CPU 內(nèi)核仍然遵循高性能 CPU 設計的久經(jīng)考驗的原則——快速、deep pipelines，在追蹤指針方面極其有效——但這不再是設計團隊的唯一關注點。 “這些大型 CPU 現(xiàn)在與其他可編程引擎共享空間——GPU 和通用可編程 NPU，可加速人工智能工作負載，”他說。 “與大眾消費設備中高度專業(yè)化的 SoC 的一個顯著區(qū)別是，避免使用硬連線邏輯塊（加速器）來執(zhí)行人工智能工作負載中的視頻轉(zhuǎn)碼或矩陣加速等任務。為數(shù)據(jù)中心設計的設備需要保持可編程性，以響應各種工作負載，而不僅僅是消費類設備中的單一已知功能?！?/p>

然而，所有這些都需要更多的分析，設計屆正在繼續(xù)推動流程中的更多步驟。 “無論是因為工具，還是通過仿真或虛擬原型，你都擁有了了解數(shù)據(jù)的工具?！盚and說。 “此外，該行業(yè)已經(jīng)發(fā)展壯大，其專業(yè)化程度足以證明所花費用的合理性。第一部分是為了降低制造新硬件的風險，因為你有工具來了解情況，你不必為了安全而制造'一刀切'的產(chǎn)品。現(xiàn)在，市場已經(jīng)開始分化，它的重要性足以讓你花錢去做。此外，現(xiàn)在也有了這樣做的方法?，F(xiàn)在，通過生態(tài)系統(tǒng)、技術和其他一切因素的綜合作用，競爭變得容易多了。對于高性能計算公司來說，最初的目標是：'我們只需獲得一個良好的平臺，讓我們可以按照自己的方式對其進行維度化，然后再放入一些加速器。所以我們開始看到人工智能加速器和視頻加速器，然后一些更深奧的公司開始追求機器學習。這意味著什么？這意味著他們需要非常高的 MAC 性能。他們會將處理器架構聚焦于此，這就是他們的差異化之道。"

再加上RISC-V 和可重復使用的芯粒和硬 IP，架構開始看起來與幾年前大為不同。"如果你看看現(xiàn)在的數(shù)據(jù)中心和數(shù)據(jù)中心中的整個軟件堆棧，在堆棧中添加一些東西并不像以前那樣困難，你必須重建整個數(shù)據(jù)中心。"如今變得重要的是進行系統(tǒng)級分析的能力。應用的系統(tǒng)級協(xié)同設計已變得非常重要，而且由于高性能計算已不再像以前那樣容易獲得。這是一個帶輪子的數(shù)據(jù)中心。

許多人認為，應該開發(fā)新的架構，以克服幾代 CPU 所面臨的內(nèi)存挑戰(zhàn)。"Fraunhofer IIS 自適應系統(tǒng)工程部高效電子學部門主管 Andy Heinig 說："對 AI/ML 的需求將加速開發(fā)新的特定應用架構的進程。"傳統(tǒng)的 CPU 如果能提供更好的內(nèi)存接口來解決內(nèi)存問題，就能成為這場革命的一部分。如果 CPU 能夠提供這種新的內(nèi)存架構，那么 AI/ML 加速器就能與 CPU 一起成為數(shù)據(jù)中心的最佳解決方案。然后，CPU 負責需要靈活性的經(jīng)典任務，而加速器則為非常具體的任務提供最佳性能。"

例如，Arm 直接與多個超大規(guī)模企業(yè)合作開發(fā)基于 Neoverse 的計算解決方案，以實現(xiàn)高性能、定制靈活性以及強大的軟件和硬件生態(tài)系統(tǒng)。通過這種方式已生產(chǎn)出了公開發(fā)布的芯片，如 AWS Graviton 和 Nitro 處理器、谷歌的 Mt. Evans DPU、微軟 Azure 的 Cobalt 100、NVIDIA 的 Grace CPU Superchip 和阿里巴巴的倚天 710。

“我們從這些和其他設計合作伙伴那里學到了很多東西，”Arm基礎設施業(yè)務線產(chǎn)品管理高級總監(jiān) Brian Jeff 說道。 “我們塑造高性能 CPU 和平臺開發(fā)的主要方式之一是更深入地了解基礎設施工作負載，從而實現(xiàn)特定的架構和微架構增強，尤其是 CPU 管線的前端和 CMN 網(wǎng)狀結構。"

但捕獲該工作負載并為其開發(fā)芯片架構并不總是那么簡單。對于人工智能訓練和推理來說尤其如此，因為它們可能會隨著算法的變化而變化。

"Synopsys公司接口IP首席產(chǎn)品經(jīng)理Priyank Shukla表示："目前正在訓練不同的模型，例如Meta公司公開的Llama模型和Chat GPT模型。"所有這些模型都有一個模式和一定數(shù)量的參數(shù)。以 GPT-3 為例，它有 1,750 億個參數(shù)。每個參數(shù)的寬度為 2 字節(jié)，即 16 位。你需要在 2 個字節(jié)中存儲這么多信息--1750 億個參數(shù)，相當于 3500 億字節(jié)的內(nèi)存。該內(nèi)存需要存儲在共享該模型的所有加速器中，而該模型需要放置在加速器的結構中，參數(shù)需要放置在與該加速器相關的內(nèi)存中。因此，你需要一個能接收更大模型并對其進行處理的結構。你可以以不同的方式實現(xiàn)該模型，即實現(xiàn)該算法的方式。有些工作可以串行方式進行，有些工作可以并行方式進行。以串行方式進行的工作需要與高速緩存保持一致，并將延遲降到最低。這種以串行方式進行的工作將在一個機架內(nèi)進行分工，以便將延遲降到最低。以并行方式進行的工作將通過擴展網(wǎng)絡在不同機架之間進行分配。我們看到系統(tǒng)人員正在創(chuàng)建這一模型和算法，并在定制硬件中加以實現(xiàn)。

圖 1：機器學習優(yōu)化的服務器機架。來源：新思科技

組裝各種處理元件并非易事。 Synopsys ASIP 工具產(chǎn)品經(jīng)理 Patrick Verbist 表示：“它們是異構多核架構，通常是通用 CPU 和 GPU 的組合，具體取決于公司類型，因為他們偏愛其中之一。” 。 “還有具有固定功能的 RTL 加速器，它們混合在這些異構多核架構中。這些加速器運行的應用程序負載類型通常包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)壓縮/解壓縮、圖的權重等。但所有這些事情之間的一個共同點與大規(guī)模的運營有關。通常，這些計算是在標準或自定義數(shù)據(jù)類型上完成的。許多處理架構通常都支持 Int 16，但如果您只需處理 16 位數(shù)據(jù)，您就不想浪費 32 位數(shù)據(jù)路徑中的 16 位。你必須定制它。因此，加速器不僅需要運行浮點 32 數(shù)據(jù)類型，還需要支持 int 8 和/或 int 16，可能是半精度 float、自定義 int 或自定義 float 類型的數(shù)據(jù)類型，并且功能單元（運算符）通常是向量加法器、向量乘法器、加法器樹和激活函數(shù)的組合。這些激活函數(shù)通常是超越函數(shù)，例如指數(shù)或雙曲函數(shù)、平方根、大規(guī)模除法，但是是矢量化的并且具有單周期吞吐量要求，因為每個周期，您都希望對這些東西開始新的操作。對于此類加速器，在異構性的影響下，我們看到許多客戶使用 ASIP（特定于應用程序的指令處理器）作為該異構空間中的塊之一。 ASIP 允許您自定義運算符，因此數(shù)據(jù)路徑和指令集僅以比常規(guī) DSP 更有效的方式執(zhí)行有限的操作集。”

DSP 通常不會被執(zhí)行，它的用途太通用了。另一方面，固定功能 RTL 可能不夠靈活，這就產(chǎn)生了這樣的空間：“是的，我們需要比固定功能 RTL 更靈活、但比通用 DSP 不太靈活的東西?！边@就是 ASIP 發(fā)揮作用的地方。如果你看看 GPU，你會發(fā)現(xiàn) GPU 在某種程度上也是通用的。它必須支持各種工作負載，但不是所有工作負載。這就是 ASIP 發(fā)揮作用的地方，以支持靈活性和可編程性。您需要這種靈活性來支持一系列計算算法，以適應不斷變化的軟件或 AI 圖形要求，以及 AI 算法本身不斷變化的要求?！?/p>

西門子的 Hand 認為計算工作量是一項艱巨的挑戰(zhàn)?！盀榱私鉀Q這個問題，垂直整合的公司正在以這種方式投資高性能計算，因為高性能計算與人工智能沒有太大不同，你只能處理你看到的數(shù)據(jù)模式，”Hand說。 “如果你是亞馬遜或微軟這樣的公司，那么你就可以獲得大量的跟蹤數(shù)據(jù)，而無需窺探任何數(shù)據(jù)，并且你知道機器的瓶頸在哪里。你可以使用這些信息并說，‘我們看到我們獲得了內(nèi)存帶寬，我們必須對此采取一些措施，或者這是一個網(wǎng)絡帶寬問題，或者，這是一個人工智能吞吐量問題，而我們正陷入這些領域.'這實際上與邊緣發(fā)生的挑戰(zhàn)沒有什么不同。邊緣的目標是不同的，我們經(jīng)?？粗f，‘我能擺脫什么？我不需要什么？或者，“我可以在哪里縮小功率范圍？”而在數(shù)據(jù)中心，您會問，‘我如何才能推送更多數(shù)據(jù)，以及如何以不燒壞設備的方式做到這一點？隨著設備變得越來越大，我怎樣才能以可擴展的方式做到這一點？”

Hand 相信向多芯片的轉(zhuǎn)變將推動許多有趣的發(fā)展，并且已經(jīng)被 AMD 和 Nvidia 等公司所采用。 “現(xiàn)在您可以開始為這些高性能計算應用程序提供一些有趣的即插即用組件，在很大程度上，您可以開始說，‘我用于該應用程序的互連芯片是什么？該應用程序的處理模具是什么？它在構建標準計算機之間提供了一個中間立場，無需進行太多更改。我能做些什么？我可以放入不同的進程、不同的網(wǎng)卡、不同的 DIMM。作為云提供商，我可以做的事情是有限的，以實現(xiàn)差異化。另一方面，像 Microsoft 和 Azure 這樣的大型云提供商會說，‘我可以構建自己的完整 SOC，做任何我喜歡做的事情。我可以去建造它。但你現(xiàn)在可以得到這個中等基礎，比方說，你決定生物計算數(shù)據(jù)中心有市場，有足夠多的人進入這個領域，你可以賺一些錢。您可以組裝 3D IC 并使其在該環(huán)境中工作嗎？看看會發(fā)生什么將會很有趣，因為這將降低進入門檻。我們已經(jīng)看到它被蘋果、英特爾、AMD 和 Nvidia 等公司使用，作為一種在無需測試巨大芯片的情況下獲得更快旋轉(zhuǎn)速度和更多品種的方法，我認為這將產(chǎn)生更大的影響比人們意識到的高性能計算。當你開始將它們與環(huán)境的完整數(shù)字孿生之類的東西結合起來時，你可以開始了解環(huán)境中的工作負載，了解瓶頸，然后嘗試不同的分區(qū)，然后下推?！?/p>

Arm 的 Jeff 還發(fā)現(xiàn)數(shù)據(jù)中心芯片架構正在發(fā)生變化，以適應 AI/ML 功能。 “CPU 上的推理非常重要，我們看到我們的合作伙伴利用我們的 SVE 管道、矩陣數(shù)學增強功能和數(shù)據(jù)類型來運行推理。我們還看到人工智能加速器通過高速相干接口的緊密耦合開始發(fā)揮作用，并且 DPU 正在擴展其帶寬和智能以將節(jié)點連接在一起?！?/p>

多模塊不可避免
芯片行業(yè)清楚地意識到，對于許多計算密集型應用來說，單芯片解決方案已變得不切實際。過去十年的一個大問題是，多芯片解決方案的轉(zhuǎn)變何時才會成為主流。 Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 表示：“整個行業(yè)正處于一個拐點，你無法再回避這個問題了?！?“我們在后臺談論摩爾定律和‘SysMoore’，但設計人員必須在 CPU 和 GPU 中添加更多功能，但由于光罩尺寸限制、產(chǎn)量限制以及所有這些限制，他們根本無法做到這一點芯片。多芯片芯片在這里是不可避免的，這帶來了一些有趣的考慮。第一，拿一張紙并將其折疊。這基本上就是多芯片的一個例子。你拿一個芯片，把它折疊起來，如果你能巧妙地設計它，你可以認為你實際上可以大大縮短時序，而不是有很長的時序路徑。如果你從頂部芯片到底部芯片，你所經(jīng)歷的可能只是芯片中的少量布線，但它們大多是凸塊到凸塊或鍵合到凸塊?！?/p>

多芯片設計所面臨的挑戰(zhàn)包括：要弄清楚有多少條路徑需要同步、時序是應該放在兩個芯片之間還是應該單獨關閉、L1 是應該放在頂部芯片還是底部芯片上--以及是否可以增加 L4。

Kabir解釋說："從三維角度來看，現(xiàn)在的樓層規(guī)劃變得非常有趣。"你可以把一棟單層房屋改建成三層或四層。但隨之而來的還有其他設計挑戰(zhàn)。你不能再忽視散熱問題了。散熱曾經(jīng)是印刷電路板（PCB）的事情，而現(xiàn)在系統(tǒng)設計師們認為這些芯片非常熱。黃仁勛最近在 SNUG 上說，你把室溫的水從一端放進去，另一端就會變成按摩浴缸的溫度。他是在開玩笑，但事實是，從溫度的角度來看，這些芯片的溫度很高，如果你在平面規(guī)劃時不考慮到這一點，你的處理器就會被燒毀。這意味著你必須更早地開始這樣做。在三維平面規(guī)劃方面，當涉及到工作負載時，你如何知道自己已經(jīng)分析了多芯片的不同工作負載，并確保即使在沒有網(wǎng)表的情況下也能考慮到紅外、熱和時序等關鍵影響？我們稱之為零網(wǎng)表階段。這些考慮因素都變得非常有趣，因為你再也無法避免做多芯片，所以從代工廠的角度、從 EDA 的角度，這些都是生態(tài)系統(tǒng)的前沿和中心，而設計人員則處于中間位置。

與數(shù)據(jù)中心芯片的熱問題相關的是低功耗設計

"這些數(shù)據(jù)中心耗電量巨大，"Ansys 產(chǎn)品營銷總監(jiān) Marc Swinnen 說。"我當時正在舊金山參加 ISSCC，我們的展臺就在英偉達公司旁邊，英偉達公司正在展示其人工智能訓練箱--一個裝有八個芯片、大量風扇和散熱片的大箱子。我們問它的耗電量有多大，他們說：'哦，最高時有 1 萬瓦，但平均也有 6000 瓦。'功率真是越來越瘋狂了。

Arm公司的Jeff也認為，應對數(shù)據(jù)中心芯片新挑戰(zhàn)的最佳方法是采用完整的系統(tǒng)方法，包括指令集架構、軟件生態(tài)系統(tǒng)和特定優(yōu)化、CPU微架構、結構、系統(tǒng)內(nèi)存管理和中斷控制，以及封裝內(nèi)和芯片外I/O。"完整的系統(tǒng)方法使我們能夠與合作伙伴合作，根據(jù)現(xiàn)代工作負載和工藝節(jié)點定制 SoC 設計，同時利用基于chiplet的設計方法"。

這種定制芯片設計方法使數(shù)據(jù)中心運營商能夠優(yōu)化其電力成本和計算效率。"Jeff 說："我們 Neoverse N 系列的高效率使每個插槽的內(nèi)核數(shù)從 128c 到 192c 甚至更高。"這些相同的 N 系列產(chǎn)品可以在更小的空間內(nèi)擴展到 DPU 和 6g L2 設計以及邊緣服務器。我們的 V 系列產(chǎn)品面向云計算，具有更高的每線程性能和更高的矢量性能（用于人工智能推理和視頻轉(zhuǎn)碼等工作負載），同時還能提供高效率。加速器附件的廣泛選擇使我們的合作伙伴能夠在為其工作負載量身定制的 SoC 中將定制處理和云原生計算正確地結合在一起。"

結論

鑒于高性能計算的演進特性，特別是由于數(shù)據(jù)中心的優(yōu)化方式涉及多個不同方面，所有這一切的最終結果幾乎都無法預測。" Hand表示："在網(wǎng)絡應用爆發(fā)之初，人們開始在數(shù)據(jù)中心內(nèi)進行南北向和東西向路由選擇，這改變了所有的網(wǎng)絡交換架構，因為這是一大瓶頸。"這導致了對數(shù)據(jù)中心的整體重新思考。類似的事情也發(fā)生在內(nèi)存方面，當你開始集成光學技術和一些更智能的內(nèi)存時，你會發(fā)現(xiàn)這將會是非常有趣的事情。

Hand 提到了幾年前的一次英特爾開發(fā)者大會，當時該公司解釋了如何利用硅光子學中的表面發(fā)射光學技術將內(nèi)存與數(shù)據(jù)中心機架中的存儲分離開來。"他說："他們有一個統(tǒng)一的內(nèi)存結構，可以在服務器之間共享，也可以從不同的服務器分配內(nèi)存。"因此，數(shù)據(jù)中心的拓撲結構開始變得非常有趣。即使在機架中，你看英偉達的人工智能系統(tǒng)結構也不像傳統(tǒng)的服務器機架。最大的變化是，人們可以看到它，如果有市場，你就可以構建它。我們一直認為，架構的關鍵在于核心是否快速。我們從'內(nèi)核快不快'變成了'我有足夠的內(nèi)核嗎'。但問題遠不止于此。一旦你開始打破馮-諾依曼架構，開始使用不同的內(nèi)存流，開始關注內(nèi)存內(nèi)計算，它就會變得非?？?。然后你會說，'高性能計算到底意味著什么？

本文編譯自：Semiengineering 特別鳴謝！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關注

關注
460

文章
52520

瀏覽量
440943
cpu

cpu

+關注

關注
68

文章
11080

瀏覽量
217094
soc

soc

+關注

關注
38

文章
4392

瀏覽量
222769
異構多核

異構多核

+關注

關注
0

文章
7

瀏覽量
7028
奇異摩爾

奇異摩爾

+關注

關注
0

文章
61

瀏覽量
3736

原文標題：構建高性能計算芯片

文章出處：【微信號：奇異摩爾，微信公眾號：奇異摩爾】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

構建高性能計算芯片

評論