一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何釋放異構(gòu)計算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實踐啟示

穎脈Imgtec ? 2025-06-13 08:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

報告作者:

Pallavi Sharma, Imaginaiton產(chǎn)品管理總監(jiān)

Dr.Eric Norige, Baya Systems 首席軟件架構(gòu)師

091a70ee-47ee-11f0-986f-92fbcf53809c.png

你是否正在設(shè)計多核或CPU/GPU混合系統(tǒng),卻依然未能達成性能目標(biāo)?你并不孤單。如今,系統(tǒng)架構(gòu)師們不斷追求構(gòu)建更強大的SoC,過于專注于計算能力的“堆砌”:更多核、更快引擎、更強AI加速。然而現(xiàn)實是:如果數(shù)據(jù)無法及時送達,再強的算力也無從發(fā)揮。

在2025年Andes RISC-V大會上,Imagination Technologies與Baya Systems聯(lián)手深入剖析了這一挑戰(zhàn),結(jié)果令人震驚。兩家公司利用Baya的CacheStudio工具,對CPU、GPU及混合計算系統(tǒng)中的緩存行為進行了建模分析。

目的就是要揭示:盡管硬件資源充足,現(xiàn)實中的異構(gòu)計算性能為何仍頻頻“失速”。
那么,讓我們一起來看看他們的發(fā)現(xiàn),以及這些見解如何幫助你打造更好、更快、更高效的系統(tǒng)。


隱藏的瓶頸:不是算力不足,而是數(shù)據(jù)流動受限

現(xiàn)代SoC的性能瓶頸早已不再是純粹的計算能力。相反,系統(tǒng)越來越受到數(shù)據(jù)在各處理單元與存儲層級之間傳輸效率的限制。

即使將CPU、GPU及各種加速器集成到同一芯片上,也并不自動等同于性能提升。事實上,若架構(gòu)缺乏精細(xì)協(xié)同,這種集成反而可能帶來資源競爭、延遲增加以及緩存效率下降等問題。

本次研究將緩存行為作為一種潛在的診斷工具,旨在揭示系統(tǒng)中的關(guān)鍵性能限制點,同時更深入地理解異構(gòu)計算單元在緩存大小配置、一致性管理及內(nèi)存訪問模式方面所面臨的權(quán)衡取舍。

盡管這些發(fā)現(xiàn)提供了諸多有價值的洞見,但應(yīng)結(jié)合本研究的具體范圍與假設(shè)前提進行解讀。以下是部分關(guān)鍵發(fā)現(xiàn):


純CPU負(fù)載:優(yōu)先考慮時間局部性與分層緩存策略


一級緩存(L1):性能提升隨著緩存容量的增加呈線性趨勢。將L1從16 KB提升至64 KB,命中率從約94.5%提升至約97.8%。這驗證了CPU主導(dǎo)型任務(wù)具備顯著的時間局部性——即最近訪問的數(shù)據(jù)很可能會在短時間內(nèi)再次被訪問。

二級緩存(L2):命中率與L1容量呈負(fù)相關(guān)關(guān)系。隨著L1緩存吸收更多訪問請求,L2的利用率下降,從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應(yīng)側(cè)重于一致性管理與回退路徑延遲優(yōu)化,而非盲目擴展容量。

三級緩存(L3):命中率維持在相對中等的水平(20–35%),其主要作用在于多核之間的一致性維護以及降低對DRAM的訪問壓力。

實際啟示:對于以CPU為主的工作負(fù)載,最佳性能依賴于為每個核心配置合適容量的私有L1緩存,同時針對延遲與一致性需求精細(xì)調(diào)優(yōu)L2。L3緩存主要在多核或共享內(nèi)存環(huán)境中發(fā)揮作用,特別是在DRAM壓力或一致性流量較高時更為關(guān)鍵。


純GPU負(fù)載:單靠加大緩存容量無法彌補訪問模式的不規(guī)則性

一級緩存(L1):相較于CPU,GPU工作負(fù)載的L1命中率更低——隨著緩存從16 KB擴展到64 KB,命中率僅從約54%提升至約73%。這一收益受限,主要歸因于高并行計算中常見的發(fā)散式和分散式內(nèi)存訪問模式。

二級緩存(L2):隨著L1緩存增大,L2性能顯著下降。在16 KB L1配置下,L2命中率可達約55%;但當(dāng)L1提升至64 KB時,命中率驟降至6–7%。這表明,過度放大上層緩存可能會破壞下層緩存的重用機會。

三級緩存(L3):在所有配置下,L3利用率始終偏低,最高命中率僅約為2.2%。這可能反映出GPU的流式數(shù)據(jù)訪問模式以及線程間局部性較差的特點。

實際啟示:GPU的內(nèi)存層級性能高度依賴于軟件層的訪問優(yōu)化,例如本地存儲使用、數(shù)據(jù)分塊(tiling)及顯式同步,而不能僅依賴傳統(tǒng)的緩存層次結(jié)構(gòu)。硬件改進必須與面向負(fù)載的編程模型相結(jié)合,才能充分發(fā)揮性能。


混合負(fù)載:緩存層級的協(xié)同至關(guān)重要

一級緩存(L1):CPU和GPU線程的命中率均有提升,隨著L1從16 KB擴展至64 KB,命中率從約94%提升至約97%。

二級緩存(L2):行為對配置變化極為敏感。例如,在配置為256 KB L2和16 KB L1時,L2命中率達到61.7%;但當(dāng)配置變?yōu)?4 KB L1和64 KB L2時,命中率下降至23.2%。這表明在設(shè)計時必須同時考慮各級緩存的替換模式(eviction patterns)。

三級緩存(L3):在L1和L2容量不足的情況下,L3展現(xiàn)出顯著優(yōu)勢。配置為1024 KB的L3時,對于較小L1/L2配置,命中率最高可達57%。

DRAM訪問流量:隨著緩存層級協(xié)調(diào)優(yōu)化,內(nèi)存訪問量顯著下降,從最小緩存配置下的約38.5萬次訪問減少至優(yōu)化配置下的約32.8萬次。

實際啟示:在異構(gòu)計算環(huán)境中,緩存設(shè)計不能孤立于某一處理引擎。必須精心架構(gòu)各層緩存與計算單元之間的交互機制。經(jīng)常被低估的L3,在降低DRAM壓力和提升系統(tǒng)整體響應(yīng)能力方面發(fā)揮著關(guān)鍵作用。


設(shè)計的重點應(yīng)是數(shù)據(jù)流,而非僅僅追求FLOPS(浮點運算性能)

本研究再次強調(diào)系統(tǒng)架構(gòu)設(shè)計中的核心原則:在異構(gòu)計算環(huán)境中,性能擴展的決定因素并非計算引擎的數(shù)量,而是這些引擎與共享內(nèi)存及互連架構(gòu)的協(xié)同方式。

CacheStudio并非終點工具,而是一個分析代理,可用于揭示系統(tǒng)中不易察覺的性能下降,并在設(shè)計初期為更優(yōu)架構(gòu)決策提供指導(dǎo)依據(jù)。


以協(xié)同為核心進行架構(gòu)設(shè)計,而非各自為戰(zhàn)

針對CPU、GPU及混合負(fù)載,本研究得出以下關(guān)鍵結(jié)論:

CPU負(fù)載需配備針對性配置的私有L1緩存及延遲優(yōu)化的L2緩存。

GPU負(fù)載需要架構(gòu)層面支持發(fā)散式內(nèi)存訪問,并輔以軟件層面的訪問優(yōu)化。

混合負(fù)載在依賴L3一致性緩沖和多級緩存平衡配置方面獲益最大。

系統(tǒng)級性能剖析對于預(yù)判內(nèi)存壓力、指導(dǎo)緩存層級設(shè)計至關(guān)重要。


結(jié)論明確:聰明的架構(gòu)優(yōu)于一味堆砌算力。

通過聚焦數(shù)據(jù)流動與內(nèi)存協(xié)調(diào),工程師才能真正釋放異構(gòu)計算系統(tǒng)的全部潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 系統(tǒng)架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    72

    瀏覽量

    23868
  • imagination
    +關(guān)注

    關(guān)注

    1

    文章

    601

    瀏覽量

    62232
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    異構(gòu)計算解決方案(兼容不同硬件架構(gòu)

    異構(gòu)計算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計算需求。其核心技術(shù)與實踐方案如下: 一、硬件架構(gòu)設(shè)計
    的頭像 發(fā)表于 06-23 07:40 ?185次閱讀

    能效提升3倍!異構(gòu)計算架構(gòu)讓AI跑得更快更省電

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)異構(gòu)計算架構(gòu)通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計算任務(wù)的特點進行分工協(xié)作,從而在性能、能效和靈活性之間實現(xiàn)最優(yōu)平衡
    的頭像 發(fā)表于 05-25 01:55 ?2800次閱讀

    國產(chǎn)芯片多架構(gòu)開發(fā)實踐:從工業(yè)控制到邊緣AI的硬件設(shè)計經(jīng)驗

    近年來,國產(chǎn)處理器與異構(gòu)計算架構(gòu)的成熟為硬件開發(fā)者提供了新選擇。我們基于飛騰、龍芯、海光等平臺,在VPX/COMe/ITX架構(gòu)上完成了多個工業(yè)級項目驗證,在此分享一些實戰(zhàn)經(jīng)驗。 硬件架構(gòu)
    的頭像 發(fā)表于 05-23 09:24 ?260次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態(tài)

    近日, Imagination Technologies 與國內(nèi)領(lǐng)先的異構(gòu)計算軟件與智算混合云服務(wù)提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
    發(fā)表于 05-21 09:40 ?1004次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態(tài)

    近日,ImaginationTechnologies與國內(nèi)領(lǐng)先的異構(gòu)計算軟件與智算混合云服務(wù)提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開合作。雙方將
    的頭像 發(fā)表于 05-20 08:33 ?452次閱讀
    <b class='flag-5'>Imagination</b>與澎峰科技攜手推動GPU+AI解決方案,共拓<b class='flag-5'>計算</b>生態(tài)

    全志科技多核異構(gòu)SoC助力行業(yè)智能化創(chuàng)新

    近日, “第十二屆開源操作系統(tǒng)年度技術(shù)會議”在北京舉行,全志科技受邀參會。會上,全志進行了題為《多核異構(gòu)SoC在行業(yè)應(yīng)用中軟件方案的思考與實踐》的分享。分享從市場和技術(shù)洞察、方案設(shè)計創(chuàng)新、場景化應(yīng)用落地三個維度展開
    的頭像 發(fā)表于 04-18 09:11 ?614次閱讀
    全志科技多核<b class='flag-5'>異構(gòu)</b>SoC助力行業(yè)智能化創(chuàng)新

    RAKsmart智能算力架構(gòu)異構(gòu)計算+低時延網(wǎng)絡(luò)驅(qū)動企業(yè)AI訓(xùn)練范式升級

    在AI大模型參數(shù)量突破萬億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計算資源池化與超低時延網(wǎng)絡(luò)為核心,重構(gòu)AI訓(xùn)練基礎(chǔ)設(shè)施,助力企業(yè)實現(xiàn)訓(xùn)練速度提升、硬件成本下降與算法迭代加速的三重突破。
    的頭像 發(fā)表于 04-17 09:29 ?322次閱讀

    RK3399處理器:高性能多核異構(gòu)計算平臺

    RK3399是一款高性能的多核異構(gòu)計算平臺,集成了強大的CPU、GPU以及豐富的多媒體和接口功能。其獨特的雙Cortex-A72+四Cortex-A53大小核CPU結(jié)構(gòu),使得RK3399在處理復(fù)雜
    的頭像 發(fā)表于 02-08 18:04 ?1544次閱讀

    異構(gòu)計算的概念、核心、優(yōu)勢、挑戰(zhàn)及考慮因素

    異構(gòu)計算就像是一支由“多才多藝”處理器組成的團隊,每個成員都有自己的強項和責(zé)任。 ? 什么是異構(gòu)計算????? “異構(gòu)計算”指的是在同一個計算平臺中,部署多種不同類型的處理單元(比如
    的頭像 發(fā)表于 01-13 11:43 ?1003次閱讀

    【一文看懂】什么是異構(gòu)計算?

    隨著人工智能、深度學(xué)習(xí)、大數(shù)據(jù)處理等技術(shù)的快速發(fā)展,計算需求的復(fù)雜性不斷提升。傳統(tǒng)的單一計算架構(gòu)已難以滿足高效處理復(fù)雜任務(wù)的要求,異構(gòu)計算因此應(yīng)運而生,成為現(xiàn)代
    的頭像 發(fā)表于 12-04 01:06 ?2791次閱讀
    【一文看懂】什么是<b class='flag-5'>異構(gòu)計算</b>?

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    線程調(diào)度,與Hopper架構(gòu)的細(xì)粒度同步機制,使得異構(gòu)計算場景下的任務(wù)協(xié)同更加靈活。在我的分布式訓(xùn)練實踐中,這些特性顯著提升了模型收斂速度。 張量處理器的設(shè)計是本書點睛之筆。從數(shù)學(xué)抽象來看,張量統(tǒng)一了
    發(fā)表于 11-24 17:12

    邊緣計算架構(gòu)設(shè)計最佳實踐

    邊緣計算架構(gòu)設(shè)計最佳實踐涉及多個方面,以下是一些關(guān)鍵要素和最佳實踐建議: 一、核心組件與架構(gòu)設(shè)計 邊緣設(shè)備與網(wǎng)關(guān) 邊緣設(shè)備 :包括各種嵌入式
    的頭像 發(fā)表于 10-24 14:17 ?1108次閱讀

    淺談國產(chǎn)異構(gòu)雙核RISC-V+FPGA處理器AG32VF407的優(yōu)勢和應(yīng)用場景

    關(guān)于國產(chǎn)異構(gòu)雙核RISC-V+FPGA處理器AG32VF407的具體優(yōu)勢和應(yīng)用場景淺談如下: 優(yōu)勢 異構(gòu)計算能力 : 異構(gòu)雙核設(shè)計結(jié)合了RISC-V的高效指令集和FPGA的靈活可編程性,能夠針對特定
    發(fā)表于 08-31 08:32

    打造異構(gòu)計算新標(biāo)桿!國數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計

    參考設(shè)計是首個支持異構(gòu)計算架構(gòu)的CXL硬件設(shè)備,標(biāo)志著CXL技術(shù)在數(shù)據(jù)中心領(lǐng)域迎來異構(gòu)計算新階段。 ? 國數(shù)集聯(lián)基于FPGA與自主研發(fā)的CXL協(xié)議IP的先進特性,可實現(xiàn)CPU、GPU、DDR、SSD
    的頭像 發(fā)表于 08-06 14:19 ?676次閱讀
    打造<b class='flag-5'>異構(gòu)計算</b>新標(biāo)桿!國數(shù)集聯(lián)發(fā)布首款CXL混合資源池參考設(shè)計

    AvaotaA1全志T527開發(fā)板AMP異構(gòu)計算簡介

    Avaota SBC 的部分平臺內(nèi)具有小核心 CPU,與大核心一起組成了異構(gòu)計算的功能。 在異構(gòu)多處理系統(tǒng)中,主核心和輔助核心的存在旨在共同協(xié)作,以實現(xiàn)更高效的任務(wù)處理。這種協(xié)作需要系統(tǒng)
    發(fā)表于 07-24 09:54