AI 訓(xùn)練和推理 SoC 和系統(tǒng)開發(fā)人員正在通過 HBM2e 和 GDDR 規(guī)范進(jìn)行組合,以確定哪種風(fēng)格最適合他們的下一代設(shè)計(jì)。
幾乎每天都有新的人工智能 (AI) 應(yīng)用程序涌現(xiàn)。然而,訓(xùn)練和推理 SoC 設(shè)計(jì)人員和系統(tǒng)工程師在內(nèi)存帶寬、容量和內(nèi)存使用均衡方面面臨著與深度學(xué)習(xí)計(jì)算元素相關(guān)的巨大挑戰(zhàn)。
下一代 AI 應(yīng)用面臨的挑戰(zhàn)包括是選擇高帶寬內(nèi)存第 2 代增強(qiáng)型 (HBM2e) 還是圖形雙倍數(shù)據(jù)速率 6 (GDDR6) DRAM。對(duì)于某些 AI 應(yīng)用程序,每種應(yīng)用程序都有其自身的優(yōu)點(diǎn),但作為訓(xùn)練或推理 SoC/系統(tǒng)設(shè)計(jì)人員,您必須仔細(xì)評(píng)估每個(gè)應(yīng)用程序以成功實(shí)施您的設(shè)計(jì)。
獲得概要
這里是您在繼續(xù)進(jìn)行 AI 設(shè)計(jì)時(shí)可以期待的概要。?HBM2e 和 GDDR6 的“概覽”比較,突出了有助于指導(dǎo)您的 AI 設(shè)計(jì)的關(guān)鍵差異。
對(duì)于不同的架構(gòu)和系統(tǒng),您可以使用不同的尺寸、容量和預(yù)期性能水平來實(shí)現(xiàn)以每瓦兆次運(yùn)算 (TOPS/W) 衡量的所需性能。但是,在此處的討論中,我們將比較給定 AI 加速器設(shè)計(jì)的相同帶寬要求。
在我們的比較示例中,使用了一個(gè)設(shè)備、一個(gè)堆棧的 HBM2e。它具有 8 千兆位 (Gb) 的容量,以及高達(dá)每秒 2.8 兆位 (Tb/s) 的帶寬。在 HBM2e 下,帶寬被分解為 2.8 Tb/s × 1,024 輸入/輸出 (I/O) 等于 2.8 Tb/s。
至于 GDDR6,為了達(dá)到 2.0-Tb/s 的帶寬,您需要四個(gè)設(shè)備,每個(gè)設(shè)備提供高達(dá) 2-Gb 的容量,因此總?cè)萘颗c HBM2e 的 8 Gb 相同。在帶寬方面,每個(gè) GDDR I/O 提供大約 16 Gb/s 的帶寬。因此,這四個(gè)設(shè)備中的 32 × 4 或 128 個(gè) I/O 加起來可以提供大約 2 Tb/s。這里的要點(diǎn)是,與四個(gè) GDDR6 設(shè)備相比,單個(gè) HBM2e 設(shè)備可以為您提供更多帶寬。
HBM2e 設(shè)備在 2.8-Gb/s 帶寬下的功耗約為 5 瓦。相比之下,在 GDDR6 的情況下,四個(gè)設(shè)備中的每個(gè)設(shè)備的功耗約為 2.5 W,總功耗為 10 W。因此,很明顯單個(gè) HBM2e 設(shè)備的功耗幾乎是 GDDR6 解決方案的一半。
系統(tǒng)性能
現(xiàn)在,讓我們進(jìn)入系統(tǒng)性能。AI 芯片通常以每瓦特浮點(diǎn)運(yùn)算 (TFLOPS/W) 的形式進(jìn)行比較。需要指出的是,系統(tǒng)設(shè)計(jì)師和架構(gòu)師將以不同的方式構(gòu)建深度學(xué)習(xí)加速器。
HBM2e 采用 2.5D 封裝技術(shù),并通過中介層與 SoC 或 ASIC 進(jìn)行 die-to-die 連接。因此,與 GDDR6 相比,它在給定操作中消耗的能量更少。與 GDDR6 相比,提供的 TOPS/W 明顯翻了一番。
因此,與 GDDR6 相比,HBM2e 在視頻和圖像識(shí)別等 AI 應(yīng)用中更有效,并為您提供雙倍的性能功耗比。這是因?yàn)樘幚碓ㄟ^管芯上的中介層直接連接到 HBM2e。此外,每瓦浮點(diǎn)運(yùn)算提供了更好的性能。相比之下,在 GDDR6 的情況下,功能從一個(gè)芯片轉(zhuǎn)移到另一個(gè)芯片,因此能耗和延遲要高得多。
HBM2e 中介層和 TCO
如上所述,HBM2e 是一種基于 2.5-dB 的技術(shù)。這意味著在將 ASIC 連接到 HBM2e 內(nèi)存時(shí)需要插入器。然而,這種中介層是一種較舊的 65 納米工藝技術(shù)。因此,它更便宜。由于 2.5D 封裝是一項(xiàng)相對(duì)較新的技術(shù),因此 HBM2e 的總擁有成本 (TCO) 與 GDDR6 相比略高。
另一方面,GDDR6 是一種特殊但商品化的內(nèi)存。它可從三個(gè)半導(dǎo)體供應(yīng)商處獲得,而 HBM2e 目前僅可從兩個(gè)供應(yīng)商處獲得。
最大優(yōu)勢(shì)
I/O 可能是 HBM2e 相對(duì)于 GDDR6 的最大優(yōu)勢(shì)。對(duì)于 GDDR6,它們是標(biāo)準(zhǔn)的高速單端 I/O。SoC 需要一個(gè)額外的 128 位 I/O 用于數(shù)據(jù),該 I/O 在非常高的功率下切換,并且還與其他信號(hào)(例如接地和電源信號(hào))的風(fēng)險(xiǎn)命令相關(guān)聯(lián)。
然而,基于中介層的 HBM2e 具有從芯片到芯片的寬 I/O,并且功耗更低。因此,與控制器 SoC 上的典型 GDDR6 PHY 相比,裸片上的內(nèi)存控制器 PHY 功耗要低得多。
結(jié)論
HBM2e 為您提供與 GDDR6 相同或更高的帶寬和類似的容量,但功耗幾乎是一半,而 TOPS/W 則增加了一倍。因此,HBM2e 是業(yè)內(nèi)久經(jīng)考驗(yàn)的解決方案。
說了這么多,HBM2e 和 GDDR6 在印刷電路板 (PCB) 級(jí)別仍然存在設(shè)計(jì)問題和注意事項(xiàng)。一旦將這些器件放置在 PCB 上,就會(huì)出現(xiàn)信號(hào)完整性、特性和電路板空間問題,以及相關(guān)的設(shè)計(jì)注意事項(xiàng)。特別是基于中介層的 HBM2e 及其 2.5D 封裝需要特殊的 PCB 制造。
總體而言,HBM2e 是 AI 應(yīng)用的首選。HBM2e 一代擁有 2.8-Gb/s I/O 或 3.2-Gb/s I/O 帶寬,將滿足下一代 AI 應(yīng)用的高性能要求。
審核編輯 黃昊宇
評(píng)論