一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何處理SoC中的性能瓶頸呢?

數(shù)字芯片實驗室 ? 來源:數(shù)字芯片實驗室 ? 2024-05-01 09:33 ? 次閱讀

SoC 中不斷添加處理核心,但它們不會都得到充分利用,因為真正的瓶頸沒有得到解決。

SoC 需要處理的數(shù)據(jù)量激增,雖然處理核心本身可以處理這些數(shù)據(jù),但內(nèi)存和通信帶寬成為瓶頸?,F(xiàn)在的問題是可以采取什么措施解決這個問題。

內(nèi)存和 CPU 帶寬之間的差距(即所謂的內(nèi)存墻)不是一個新問題,還在繼續(xù)惡化。

早在 2016 年,德克薩斯州高級計算中心的研究科學家 John McCalpin 就發(fā)表了一次演講,研究了高性能計算 (HPC) 的內(nèi)存帶寬和系統(tǒng)資源之間的平衡。他分析了當時排名前 500 的機器,并剖析了它們的核心性能、內(nèi)存帶寬、內(nèi)存延遲、互連帶寬和互連延遲。他的分析表明,每個插槽的峰值 FLOPS 每年增加 50% 到 60%,而內(nèi)存帶寬每年僅增加約 23%。此外,內(nèi)存延遲每年減少約 4%,互連帶寬和延遲每年增加約 20%。這些表明數(shù)據(jù)移動方面存在持續(xù)且不斷擴大的不平衡。

這意味著,如果我們傳輸數(shù)據(jù),則每次內(nèi)存?zhèn)鬏斔ㄙM的時間相當于 100 次浮點算術運算。也就是說,如果無法預取并且錯過了cache,你就失去了執(zhí)行超過 4,000 次浮點運算的機會。

ba11294e-ffc7-11ee-a297-92fbcf53809c.png

系統(tǒng)性能要素的不平衡。

一個設計良好的系統(tǒng)是平衡的。大多數(shù)人想要的是更有效地使用晶體管,目標每美元的吞吐量和每瓦特的吞吐量將會更高,總之利用率越高越好。

在考慮系統(tǒng)性能時,要么受計算限制,要么受內(nèi)存限制,要么受 I/O 限制。隨著計算速度的加快,需要更加重視內(nèi)存是否能夠跟上計算速度,并且還需要更高的帶寬接口來將傳輸數(shù)據(jù)。

但業(yè)界對處理性能非常著迷。實際上,計算單元很重要,但它們通常不是實際系統(tǒng)速度的限制因素。系統(tǒng)速度和工作負載強相關,它取決于數(shù)據(jù)從某個地方來、以某種方式處理并發(fā)送到數(shù)據(jù)被需要的地方有多快,并受到沿途亂七八糟事情的干擾。

這意味著不可能構建一個適合所有任務的最佳系統(tǒng)。關鍵是要確保其均衡性良好,并且在任何區(qū)域都不會過度配置。

移動數(shù)據(jù)

移動數(shù)據(jù)肯定會影響系統(tǒng)性能,也與功耗有關,因為移動一段數(shù)據(jù)比對其執(zhí)行計算消耗的功耗高幾個數(shù)量級。完成一項任務,一般意味著將數(shù)據(jù)通過外部接口移入內(nèi)存,從內(nèi)存到CPU,中間結果在內(nèi)存和CPU之間來回切換,最后結果通過外部接口推回。

無論你的計算速度有多快,或者你的內(nèi)存陣列有多大,最終決定芯片和系統(tǒng)性能的是連接兩者的總線帶寬。這就是最大的瓶頸所在,不僅僅是總線,還有高速接口,它們都為解決數(shù)據(jù)訪問瓶頸做出了自己的努力。

有效的內(nèi)存帶寬的提升是cache的采用。假設大多數(shù)內(nèi)存訪問來自cache而不是主存,這有效地使數(shù)據(jù)更接近處理器,并減少延遲。處理器性能的提高如此之快,主要是通過核心數(shù)量的快速增加。然而,cache性能一直在下降,這是導致延遲增加的主要原因之一。即使 HBM 的引入也未能扭轉這一趨勢。cache性能的降低是因為cache設計變得越來越復雜,特別是隨著更多核心保持cache coherent,并且多級cache串行l(wèi)ookup以節(jié)省功耗。

另一種選擇是將計算移至更靠近內(nèi)存的位置。in-memory computing的時代才剛剛開始,這可以通過三種方式實現(xiàn)。

1、通常,由于 DRAM 制造的經(jīng)濟性,我們不會在 DRAM 芯片上看到很多復雜的邏輯。我們可能會看到少量非常具體的函數(shù)被添加到這些芯片中,例如累加或乘累加函數(shù),這在許多 DSPAI 算法中很常見。

2、第二種可能是像 CXL.mem 這樣的技術,在這種技術中,將計算功能添加到控制內(nèi)存陣列的邏輯芯片中是非常可行的。從技術上講,這是在內(nèi)存附近處理而不是在內(nèi)存中處理。

3、第三個介于兩者之間。對于某些堆疊式存儲器(例如 HBM),通常有一個邏輯芯片與 DRAM 共同封裝在同一堆疊中,并且該邏輯芯片是面向 CPU 和 DRAM 設備的總線之間的接口。該邏輯芯片為邏輯芯片上的中低復雜度處理元件提供了空間。

HBM 的成功無疑幫助普及了chiplets的概念,曾經(jīng)受到光罩限制或產(chǎn)量限制的芯片現(xiàn)在可以在多個chiplets上制造并集成到一個封裝中。然而,現(xiàn)在需要的芯片間連接解決方案可能比單個芯片上的連接解決方案慢。當公司將芯片分割成多個同質芯片時,希望在分割芯片上執(zhí)行相同的操作,又不會降低性能或準確性。

實際上,這些chiplets是在系統(tǒng)環(huán)境中設計的,不僅僅是之前那樣的存儲器或控制器設計。封裝中的 IC 會引入其自身的寄生效應,因此你需要將其視為一個系統(tǒng),并查看眼圖,看看如何根據(jù)系統(tǒng)的運行條件,信號的來源和接收方,對其進行優(yōu)化,從而大幅增加帶寬并減少延遲。這些目的決定了接口和協(xié)議。USBSATA、PCIe、CXL、DDR、HMC、AXUI、MIPI,這些不勝枚舉的協(xié)議都需要接口,業(yè)內(nèi)正在創(chuàng)建更新的協(xié)議,并且需要新的接收器來實現(xiàn)這些芯片到芯片的連接。

multi-die系統(tǒng)的一大優(yōu)勢是可用連接的數(shù)量變得更多。從 I/O 的角度來看,我們曾經(jīng)擁有 1,024 位總線,然后我們轉向串行接口。但最近發(fā)生的情況是,那些串行接口現(xiàn)在已經(jīng)變成并行接口,例如 x32 PCIe,它由 32 通道超高速串行連接組成。

工作負載

如前所述,系統(tǒng)性能和工作負載強相關。不可能制造針對所有情況優(yōu)化的通用機器。找到PPA平衡迫使人們重新思考和定制芯片。

人工智能這樣的任務也存在著不同的工作負載。如果你觀察人工智能,就會發(fā)現(xiàn)它有兩個方面。一個是訓練,在訓練中你需要不斷地訪問內(nèi)存,因為權重就在那里。而且你會不斷改變權重,此時內(nèi)存訪問是關鍵。然而,如果你看推理,模型已經(jīng)訓練好了,你所要做的就是 MAC 操作,沒有訪問內(nèi)存去改變權重。

尋找適當?shù)钠胶庑枰捎脜f(xié)同設計方法。在架構階段,需要評估芯片的各種場景,關注芯片內(nèi)以及芯片外的吞吐量和帶寬。另一方面,物理設計團隊必須找出芯片的最佳尺寸。由于產(chǎn)量和功率的原因,它不能太大,更不能太小。然后設計團隊必須為他們構建接口和協(xié)議。架構團隊、物理設計團隊和設計團隊不斷地進行三方戰(zhàn)斗,以找到讓每個人都滿意的最佳點。當然,少不了驗證這個守門員。

計算范式

對于某些問題,使用傳統(tǒng)軟件可能會導致解決方案效率低下。這發(fā)生在從單核到多核的過渡以及 GPGPU 的采用期間。業(yè)界正在等待新一代人工智能硬件的實現(xiàn)。GPU 可以進行大規(guī)模并行計算,除了渲染形狀之外還可以做各種事情。

結論

添加更多或更快的處理核心固然很棒,但除非你能讓它們保持忙碌,否則就是在浪費時間、金錢和電力。

隨著 DRAM 遷移到封裝中,預計潛在帶寬將持續(xù)增加,但 DRAM 性能在過去 20 年里始終沒有跟上處理器,那么業(yè)界將不得不通過自身架構來解決這個問題。

審核編輯:劉清
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19740

    瀏覽量

    232864
  • DRAM
    +關注

    關注

    40

    文章

    2337

    瀏覽量

    184948
  • SoC芯片
    +關注

    關注

    1

    文章

    624

    瀏覽量

    35534
  • Cache
    +關注

    關注

    0

    文章

    129

    瀏覽量

    28827
  • HPC
    HPC
    +關注

    關注

    0

    文章

    331

    瀏覽量

    24123

原文標題:處理 SoC 中的性能瓶頸

文章出處:【微信號:數(shù)字芯片實驗室,微信公眾號:數(shù)字芯片實驗室】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    串口接收不等長的數(shù)據(jù)如何處理

    串口是一個很重要的通信方式,但是要用好串口并不是那么簡單,比如如何接收不等長的數(shù)據(jù)等。你們是如何處理?大家來說說你們的做法。
    發(fā)表于 05-15 08:02

    DLPC3433的PCLK和PDATA【0~23】該如何處理

    我們項目里面只用到了mipi接口,請問下如何處理不用的并口輸入? 規(guī)格書中在第7頁有描述PDM_CVS_TE,VSYNC_WE,HSYNC_CS,DATAEN_CMD需要下拉,但沒有明確說PCLK和PDATA【0~23】該如何處理
    發(fā)表于 02-27 08:43

    PCB電源部分如何處理?

    PCB電源部分如何處理?DDR的基本要求是什么啊 ?看了好多資料什么樣的說法都有
    發(fā)表于 03-14 14:51

    何處理好跨時鐘域間的數(shù)據(jù)

    跨時鐘域處理是什么意思?如何處理好跨時鐘域間的數(shù)據(jù)?有哪幾種跨時鐘域處理的方法?
    發(fā)表于 11-01 07:44

    TTL集成與非門電路不用的輸入端如何處理

    TTL集成與非門電路不用的輸入端如何處理?
    發(fā)表于 04-28 10:52

    NANO芯片系統(tǒng),其對應的AVDD,VREF等引腳該如何處理?

    NANO芯片系統(tǒng),如果用不到ADC模數(shù)轉換模塊,其對應的AVDD,VREF等引腳該如何處理?可以懸空或直接接地嗎?假使能懸空或直接接地,這樣能節(jié)省一部分不必要的功耗嗎?
    發(fā)表于 08-25 06:46

    SoC集成處理單元性能評估及功能劃分

    SoC集成處理單元性能評估及功能劃分
    發(fā)表于 01-12 22:09 ?2次下載

    SoC處理單元性能分析

    功能的劃分。 在準備開發(fā)目前越來越復雜的便攜式系統(tǒng)時,設計人員面對的最大挑戰(zhàn)之一就是采用什么樣的處理器組合來實現(xiàn)最優(yōu)化的3p指標,即系統(tǒng)性能最高、價格最低及功耗最小。系統(tǒng)級芯片(soc)集成使得今日的創(chuàng)新成為可能,但它常
    發(fā)表于 10-21 10:37 ?1次下載
    <b class='flag-5'>SoC</b><b class='flag-5'>中</b>的<b class='flag-5'>處理</b>單元<b class='flag-5'>性能</b>分析

    何處理電子污染

    電子垃圾污染給環(huán)境造成了巨大的壓力,當今隨著電子產(chǎn)品廢棄量的增加他逐漸得到了社會各界的高度關注。如何處理電子垃圾帶來的污染?請看下文
    發(fā)表于 01-22 14:18 ?7212次閱讀

    處理DS2155性能報告消息

    本應用筆記詳細介紹了如何處理DS2155性能報告消息(PRM)以及如何處理 通過 T1 設施數(shù)據(jù)鏈路 (FDL) 以 HDLC 消息的形式發(fā)送或接收 PRM。
    的頭像 發(fā)表于 02-22 09:41 ?994次閱讀
    <b class='flag-5'>處理</b>DS2155<b class='flag-5'>中</b>的<b class='flag-5'>性能</b>報告消息

    何處理HTTP 503故障問題?

    HTTP 503故障問題在業(yè)務管理上很常見, 以問題的可能性也相當多, 故障時除了503提示, 好像什么也沒有, 發(fā)生故障時應如何處理? 文章內(nèi)會為大家詳細說明
    的頭像 發(fā)表于 04-12 10:05 ?1255次閱讀
    如<b class='flag-5'>何處理</b>HTTP 503故障問題?

    ttl與非門不用的輸入端如何處理

    。但是有時候,輸入端的某些端口不需要使用,那么應該如何處理? 首先,我們需要了解 TTL 芯片和非門芯片的內(nèi)部結構和工作原理。TTL 芯片是由一些晶體管和電阻器組成的。它的輸入端接收高電平(1)或低電平(0)的電信號,而輸出
    的頭像 發(fā)表于 09-17 15:42 ?7053次閱讀

    調(diào)試TrustZone時,如何處理HardFault?

    調(diào)試TrustZone時,如何處理HardFault?
    的頭像 發(fā)表于 09-27 16:33 ?874次閱讀
    調(diào)試TrustZone時,如<b class='flag-5'>何處理</b>HardFault?

    廣播系統(tǒng)出現(xiàn)噪音、嘯叫如何處理?

    公共廣播系統(tǒng)目前是一個各行各業(yè)都會有需求的系統(tǒng),酒店、商場、公園、景點等場所都會用到。現(xiàn)實使用,我們會發(fā)現(xiàn)有的廣播系統(tǒng)是電聲悅耳、自然流暢,但是有一些則帶有些噪音、嘯叫。面對這種情況,我們該如何處理。
    發(fā)表于 11-08 09:41 ?2175次閱讀
    廣播系統(tǒng)出現(xiàn)噪音、嘯叫如<b class='flag-5'>何處理</b>?

    何處理同軸阻抗失配?如何避免阻抗失配這種風險?

    何處理同軸阻抗失配?如何避免阻抗失配這種風險? 同軸阻抗失配是電子通信領域中一種常見的問題,當同軸電纜的輸出端口的阻抗與接收端口不匹配時,就會發(fā)生阻抗失配。這種失配會導致信號反射、傳輸效率降低
    的頭像 發(fā)表于 11-28 14:18 ?1448次閱讀