一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析Roofline模型實踐

Linux閱碼場 ? 來源:面包板社區(qū) ? 作者:Linux閱碼場 ? 2021-04-28 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在多核異構(gòu)的時代,軟件人員普遍面臨的一個困惑是,面對如此復(fù)雜的系統(tǒng),應(yīng)該如何部署我們的算法,是應(yīng)該讓它運行在CPU,GPU還是甚至類似TPU的專門ASIC上才是最佳方案?另外給定特定的計算平臺,我們的算法實現(xiàn)是不是已經(jīng)榨干硬件平臺的最大能力,還有沒有進一步改善的空間?這些問題尋尋覓覓答案,真像霧里看花,我們渴望有一雙慧眼,幫我們穿透迷津。

在衡量計算效能的正確姿勢我們提到了內(nèi)存帶寬(memory bandiwidth)和以FLOPS為代表的算力是可以很好的刻畫計算平臺的兩個指標。同時既然是要衡量算法的性能自然我們也要考慮算法的特性。基于此,論文《Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures》提出了Roofline模型,試圖對硬件和軟件通盤考慮,從而提出改善性能的洞見。

這里我們試著解釋如下,首先我們要介紹運算強度(arithmetic intensity,簡寫成AI)的概念,指的是針對單位內(nèi)存讀寫數(shù)據(jù)進行的運算次數(shù),以FLOP/Byte為單位。比如衡量計算效能的正確姿勢(2)介紹過的SAXPY,每次迭代,有三次內(nèi)存訪問(x讀一次,y讀寫各一次),而有兩次浮點運算(乘加各一次),所以其AI為(2 * N) / (3 * N * 4) = 1/6。

int N = 1 《《 22;

void saxpy(float a, float *x, float *y){

for (int i = 0; i 《 N; ++i)

y[i] = a*x[i] + y[i];

}

引進AI后,算力FLOPS就可以用以下公式來計算。

e6fcb8b8-a7f7-11eb-9728-12bb97331649.png

兩邊取對數(shù),

e7379988-a7f7-11eb-9728-12bb97331649.png

以logFLOPS為Y,logAI為X,我們可以得到斜截式 Y = X + logBW,另對特定平臺,算力FLOPS存在極限值,據(jù)此我們可以作如下圖。

e7486da8-a7f7-11eb-9728-12bb97331649.png

圖中紫色的線條是不是很類似屋脊線,這正是該模型命名的由來。以脊點為界,左邊區(qū)域構(gòu)成內(nèi)存帶寬瓶頸區(qū)域,右邊區(qū)域?qū)?yīng)算力瓶頸區(qū)域。已知某算法的AI,其最大可獲取FLOPS很容易計算得到,見如下公式,為AI所在豎直線與Roofline的交點。如算法Algo1的AI處于內(nèi)存帶寬受限區(qū)域,而算法Algo2的AI則位于算力受限區(qū)域,如果Algo1和Algo2為同一問題兩種算法方案,顯然Alg2更有機會獲取滿意的FLOPS。

e77db544-a7f7-11eb-9728-12bb97331649.png

上面公式代表了理想化的情形,實際操作中,存在各種各樣的天花板(Ceiling)障礙,算法優(yōu)化的過程就是反復(fù)突破這些障礙而盡量接近roofline,最后得到理想的性能。如下圖過程展示,介紹如何通過改善算法的數(shù)據(jù)局部性以充分利用Cache,并通過向量化而調(diào)用SIMD硬件資源來達到這一目的。

e7a00b3a-a7f7-11eb-9728-12bb97331649.png

除了上面介紹的Roofline模型能夠讓我們在特定平臺“紙上談兵”改善算法性能,Roofline也可以可視化同一算法部署在不同平臺時候性能的比較,結(jié)果讓人一目了然。在Google的有關(guān)TPU(TPU是Google開發(fā)的專門用于神經(jīng)網(wǎng)絡(luò)算法加速的芯片)的論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》里,作者利用Roofline圖表來比較各種神經(jīng)網(wǎng)絡(luò)算法分別部署在同時代CPU、GPU和TPU的性能差異,令人印象深刻。五角星、三角形、圓形分別代表對應(yīng)算法在TPU、GPU和CPU上運行狀況。

e8b3005e-a7f7-11eb-9728-12bb97331649.png

需要指出的是,Roofline模型在實踐中并不像想象般容易,運用的時候有很多細微的地方需要仔細推敲。但它仍不失為非常insightful的尋寶圖,如果你能學(xué)會正確解讀,它完全有機會幫我們找到算法性能優(yōu)化的巨大寶藏。以后我們會有很多場合涉及它的理念和具體用法,敬請期待。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1247

    瀏覽量

    122395
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11080

    瀏覽量

    217085
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95392

原文標題:Roofline模型初步

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    cubemx導(dǎo)入模型后找不到keil找不到工程內(nèi)的模型的相關(guān)文件是怎么回事?

    模型在cubemx內(nèi)解析后沒有問題,但解析之后生成工程keil內(nèi)缺讀取不到生成的三個模型文件
    發(fā)表于 07-18 07:18

    Linux網(wǎng)絡(luò)管理的關(guān)鍵技術(shù)和最佳實踐

    在大型互聯(lián)網(wǎng)企業(yè)中,Linux網(wǎng)絡(luò)管理是運維工程師的核心技能之一。面對海量服務(wù)器、復(fù)雜網(wǎng)絡(luò)拓撲、高并發(fā)流量,運維人員需要掌握從基礎(chǔ)網(wǎng)絡(luò)配置到高級網(wǎng)絡(luò)優(yōu)化的全套技術(shù)棧。本文將結(jié)合大廠實際場景,深入解析Linux網(wǎng)絡(luò)管理的關(guān)鍵技術(shù)和最佳實踐
    的頭像 發(fā)表于 07-09 09:53 ?165次閱讀

    Texas Instruments TLK6002ZEU 6千兆位每秒 (Gbps) 的雙通道串行器-解串器 EDA模型與數(shù)據(jù)手冊解析

    Texas Instruments TLK6002ZEU 6千兆位每秒 (Gbps) 的雙通道串行器-解串器 EDA模型與數(shù)據(jù)手冊解析
    的頭像 發(fā)表于 06-10 17:17 ?325次閱讀
    Texas Instruments TLK6002ZEU 6千兆位每秒 (Gbps) 的雙通道串行器-解串器 EDA<b class='flag-5'>模型</b>與數(shù)據(jù)手冊<b class='flag-5'>解析</b>

    千方科技大模型技術(shù)在交通運輸領(lǐng)域的應(yīng)用實踐

    2025年,全國交通運輸工作會議明確提出實施“人工智能+交通運輸”行動,推動交通基礎(chǔ)設(shè)施數(shù)字化升級。近期,千方科技作為行業(yè)標桿企業(yè),受邀參與交通運輸部管理干部學(xué)院主辦的“DeepSeek在交通運輸管理中的應(yīng)用專題研討班”,分享大模型技術(shù)在交通運輸領(lǐng)域的應(yīng)用實踐。
    的頭像 發(fā)表于 05-22 09:23 ?388次閱讀

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發(fā)布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數(shù) 2,350 億,激活參數(shù)
    的頭像 發(fā)表于 05-08 11:45 ?1256次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳<b class='flag-5'>實踐</b>

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?4098次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細<b class='flag-5'>解析</b>

    NVIDIA大語言模型在推薦系統(tǒng)中的應(yīng)用實踐

    商品。之后,系統(tǒng)會借助相對簡單的粗排模型對這些候選集進行初步篩選,以縮小候選范圍,最后通過精排和重排模型,確定最終返回給用戶的推薦結(jié)果。
    的頭像 發(fā)表于 03-05 09:30 ?805次閱讀
    NVIDIA大語言<b class='flag-5'>模型</b>在推薦系統(tǒng)中的應(yīng)用<b class='flag-5'>實踐</b>

    用PaddleNLP在4060單卡上實踐模型預(yù)訓(xùn)練技術(shù)

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAI的GPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-4等大參數(shù)模型如出一轍,通過親手實踐GPT-
    的頭像 發(fā)表于 02-19 16:10 ?996次閱讀
    用PaddleNLP在4060單卡上<b class='flag-5'>實踐</b>大<b class='flag-5'>模型</b>預(yù)訓(xùn)練技術(shù)

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+第一章初體驗

    的deepseek,讓美股暴跌17%,讓美國的星際之門計劃直接流產(chǎn)了,想笑出聲。 《基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化》一書從理論到實踐,系統(tǒng)性地介紹了如何結(jié)合大模型與RAG技術(shù)構(gòu)建高效的應(yīng)用系統(tǒng)。本文針對該書
    發(fā)表于 02-07 10:42

    開源大模型落地實踐分論壇亮點前瞻

    隨著數(shù)據(jù)驅(qū)動時代的到來,開源大模型已成為技術(shù)領(lǐng)域的熱點話題。開源大模型憑借強大的數(shù)據(jù)處理和分析能力,正逐步滲透到各個行業(yè),為產(chǎn)業(yè)升級和經(jīng)濟發(fā)展注入新的活力。
    的頭像 發(fā)表于 12-13 15:30 ?564次閱讀

    光電效應(yīng)的數(shù)學(xué)模型解析

    光電效應(yīng)是指光照射在物質(zhì)上,引起電子從物質(zhì)表面逸出的現(xiàn)象。以下是光電效應(yīng)的數(shù)學(xué)模型及詳細解析: 一、光電效應(yīng)的基本數(shù)學(xué)模型 光子能量公式 : 表達式:E = hν 含義:E代表光子的能量,h是普朗克
    的頭像 發(fā)表于 11-25 13:46 ?4880次閱讀

    TLC555-Q1 spice模型到LTSPICE仿真軟件中提示無法解析是怎么回事?

    請教貴司提供的模型spice模型到LTSPICE仿真軟件中提示無法解析是怎么回事?
    發(fā)表于 11-08 07:42

    云計算平臺的最佳實踐

    云計算平臺的最佳實踐涉及多個方面,以確保高效、安全、可擴展和成本優(yōu)化的云環(huán)境。以下是一些關(guān)鍵的最佳實踐: 一、云成本優(yōu)化 詳細分析云使用情況 :通過細致的監(jiān)控和分析,識別低ROI(投資回報率)的環(huán)節(jié)
    的頭像 發(fā)表于 10-24 09:17 ?714次閱讀

    云知聲山海大模型的訓(xùn)練優(yōu)化方法及應(yīng)用實踐

    由AI大模型工場主辦的AI大模型生態(tài)暨算力大會在京舉行。作為國內(nèi)最具影響力與最懂大模型的AI生態(tài)大會,此次大會以「AI NATIVE,生成未來」為主題,圍繞大模型、算力、數(shù)據(jù)產(chǎn)業(yè)、基礎(chǔ)
    的頭像 發(fā)表于 10-12 14:12 ?653次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    和信息源來推導(dǎo)出最終答案。 問答原理的具體實現(xiàn) 1. 輸入解析 當用戶提出問題時,模型首先會對問題進行解析,提取關(guān)鍵詞、主題和背景信息等關(guān)鍵要素。這些要素將作為后續(xù)處理和推理的基礎(chǔ)。 2. 檢索
    發(fā)表于 08-02 11:03