一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

推理芯片的最大挑戰(zhàn)

芯片半導體 ? 來源:半導體行業(yè)觀察 ? 2023-09-27 17:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在不到一年的時間里,生成式人工智能通過 OpenAI 的 ChatGPT(一種基于 Transformer 的流行算法)獲得了全球聲譽和使用。基于 Transformer 的算法可以學習對象不同元素(例如句子或問題)之間的復雜交互,并將其轉(zhuǎn)換為類似人類的對話。

在 Transformer 和其他大型語言模型 (LLM) 的引領下,軟件算法取得了快速進展,而負責執(zhí)行它們的處理硬件卻被拋在了后面。即使是最先進的算法處理器也不具備在一兩秒的時間范圍內(nèi)詳細闡述最新 ChatGPT 查詢所需的性能。

為了彌補性能不足,領先的半導體公司構建了由大量最好的硬件處理器組成的系統(tǒng)。在此過程中,他們權衡了功耗、帶寬/延遲和成本。該方法適用于算法訓練,但不適用于部署在邊緣設備上的推理。

功耗挑戰(zhàn)

雖然訓練通?;谏纱罅繑?shù)據(jù)的 fp32 或 fp64 浮點算法,但它不需要嚴格的延遲。功耗高,成本承受能力高。

相當不同的是推理過程。推理通常在 fp8 算法上執(zhí)行,該算法仍會產(chǎn)生大量數(shù)據(jù),但需要關鍵的延遲、低能耗和低成本。

模型訓練的解決方案來自于計算場。它們運行數(shù)天,使用大量電力,產(chǎn)生大量熱量,并且獲取、安裝、操作和維護成本高昂。更糟糕的是推理過程,碰壁并阻礙了 GenAI 在邊緣設備上的擴散。

邊緣生成人工智能推理的最新技術

成功的 GenAI 推理硬件加速器必須滿足五個屬性:

petaflops 范圍內(nèi)的高處理能力和高效率(超過 50%)

低延遲,可在幾秒鐘內(nèi)提供查詢響應

能耗限制在 50W/Petaflops 或以下

成本實惠,與邊緣應用兼容

現(xiàn)場可編程性可適應軟件更新或升級,以避免工廠進行硬件改造

大多數(shù)現(xiàn)有的硬件加速器可以滿足部分要求,但不能滿足全部要求。老牌CPU是最差的選擇,因為執(zhí)行速度令人無法接受;GPU 在高功耗和延遲不足的情況下提供相當快的速度(因此是訓練的選擇);FPGA 在性能和延遲方面做出了妥協(xié)。

完美的設備將是定制/可編程片上系統(tǒng) (SoC),旨在執(zhí)行基于變壓器的算法以及其他類型算法的發(fā)展。它應該支持合適的內(nèi)存容量來存儲法學碩士中嵌入的大量數(shù)據(jù),并且應該可編程以適應現(xiàn)場升級。

有兩個障礙阻礙了這一目標的實現(xiàn):內(nèi)存墻和 CMOS 器件的高能耗。

內(nèi)存墻

人們在半導體發(fā)展歷史的早期就觀察到,處理器性能的進步被內(nèi)存訪問的缺乏進步所抵消。

隨著時間的推移,兩者之間的差距不斷擴大,迫使處理器等待內(nèi)存?zhèn)魉蛿?shù)據(jù)的時間越來越長。結(jié)果是處理器效率從完全 100% 利用率下降(圖 1)。

cfdca4b0-5d15-11ee-939d-92fbcf53809c.jpg

為了緩解效率的下降,業(yè)界設計了一種多級分層內(nèi)存結(jié)構,采用更快、更昂貴的內(nèi)存技術,靠近處理器進行多級緩存,從而最大限度地減少較慢主內(nèi)存甚至較慢外部內(nèi)存的流量(圖 2)。

cfeeab24-5d15-11ee-939d-92fbcf53809c.jpg

CMOS IC 的能耗

與直覺相反,CMOS IC 的功耗主要由數(shù)據(jù)移動而非數(shù)據(jù)處理決定。根據(jù)馬克·霍洛維茨教授領導的斯坦福大學研究(表 1),內(nèi)存訪問的功耗比基本數(shù)字邏輯計算消耗的能量高出幾個數(shù)量級。

cffaca26-5d15-11ee-939d-92fbcf53809c.jpg

加法器和乘法器的功耗從使用整數(shù)運算時的不到一皮焦耳到處理浮點運算時的幾皮焦耳。相比之下,在 DRAM 中訪問數(shù)據(jù)時,訪問高速緩存中的數(shù)據(jù)所花費的能量會躍升一個數(shù)量級,達到 20-100 皮焦耳,并且會躍升三個數(shù)量級,達到超過 1,000 皮焦耳。

GenAI 加速器是以數(shù)據(jù)移動為主導的設計的典型例子。

內(nèi)存墻和能耗對延遲和效率的影響

生成式人工智能處理中的內(nèi)存墻和能耗的影響正變得難以控制。

幾年之內(nèi),為 ChatGPT 提供支持的基礎模型 GPT 從 2019 年的 GPT-2 發(fā)展到 2020 年的 GPT-3,再到 2022 年的 GPT-3.5,再到目前的 GPT-4。每一代模型的大小和參數(shù)(weights, tokens和states)的數(shù)量都增加了幾個數(shù)量級。

GPT-2 包含 15 億個參數(shù),GPT-3 模型包含 1750 億個參數(shù),最新的 GPT-4 模型將參數(shù)規(guī)模推至約 1.7 萬億個參數(shù)(尚未發(fā)布官方數(shù)字)。

這些參數(shù)的龐大數(shù)量不僅迫使內(nèi)存容量達到 TB 范圍,而且在訓練/推理過程中同時高速訪問它們也會將內(nèi)存帶寬推至數(shù)百 GB/秒(如果不是 TB/秒)。為了進一步加劇這種情況,移動它們會消耗大量的能量。

昂貴的硬件閑置

內(nèi)存和處理器之間令人畏懼的數(shù)據(jù)傳輸帶寬以及顯著的功耗壓倒了處理器的效率。最近的分析表明,在尖端硬件上運行 GPT-4 的效率下降至 3% 左右。為運行這些算法而設計的昂貴硬件在 97% 的時間內(nèi)處于閑置狀態(tài)。

執(zhí)行效率越低,執(zhí)行相同任務所需的硬件就越多。例如,假設 1 Petaflops(1,000 Teraflops)的要求可以由兩個供應商滿足。供應商(A 和 B)提供不同的處理效率,分別為 5% 和 50%(表 2)。

那么供應商 A 只能提供 50 Teraflops 的有效處理能力,而不是理論處理能力。供應商 B 將提供 500 Teraflops。為了提供 1 petaflop 的有效計算能力,供應商 A 需要 20 個處理器,但供應商 B 只需 2 個。

d00f487a-5d15-11ee-939d-92fbcf53809c.jpg

例如,一家硅谷初創(chuàng)公司計劃在其超級計算機數(shù)據(jù)中心使用 22,000 個 Nvidia H100 GPU。粗略計算,22,000 個 H100 GPU 的售價為 8 億美元——這是其最新融資的大部分。該數(shù)字不包括其余基礎設施的成本、房地產(chǎn)、能源成本以及本地硬件總擁有成本 (TCO) 中的所有其他因素。

系統(tǒng)復雜性對延遲和效率的影響

另一個例子,基于當前最先進的 GenAI 訓練加速器,將有助于說明這種擔憂。硅谷初創(chuàng)公司的 GPT-4 配置將需要 22,000 個 Nvidia H100 GPU 副本以八位字節(jié)的形式部署在HGX H100 或 DGX H100 系統(tǒng),總共產(chǎn)生 2,750 個系統(tǒng)。

考慮到 GPT-4 包括 96 個解碼器,將它們映射到多個芯片上可能會減輕對延遲的影響。由于 GPT 結(jié)構允許順序處理,因此為總共 96 個芯片為每個芯片分配一個解碼器可能是一種合理的設置。

該配置可轉(zhuǎn)換為 12 個 HGX/DGX H100 系統(tǒng),不僅對單芯片之間、電路板之間和系統(tǒng)之間移動數(shù)據(jù)帶來的延遲提出挑戰(zhàn)。使用增量變壓器可以顯著降低處理復雜性,但它需要狀態(tài)的處理和存儲,這反過來又增加了要處理的數(shù)據(jù)量。

底線是,前面提到的 3% 的實施效率是不現(xiàn)實的。當加上系統(tǒng)實現(xiàn)的影響以及相關的較長延遲時,實際應用程序中的實際效率將顯著下降。

綜合來看,GPT-3.5所需的數(shù)據(jù)量遠不及GPT-4。從商業(yè)角度來看,使用類似 GPT-3 的復雜性比 GPT-4 更具吸引力。另一方面是 GPT-4 更準確,如果可以解決硬件挑戰(zhàn),它會成為首選。

最佳猜測成本分析

讓我們重點關注能夠處理大量查詢的系統(tǒng)的實施成本,例如類似 Google 的每秒 100,000 個查詢的量。

使用當前最先進的硬件,可以合理地假設總擁有成本(包括購置成本、系統(tǒng)運營和維護成本)約為 1 萬億美元。據(jù)記錄,這大約相當于世界第八大經(jīng)濟體意大利 2021 年國內(nèi)生產(chǎn)總值 (GDP) 的一半。

ChatGPT 對每次查詢成本的影響使其在商業(yè)上具有挑戰(zhàn)性。摩根士丹利估計,2022 年 Google 搜索查詢(3.3 萬億次查詢)的每次查詢成本為 0.2 英鎊(被視為基準)。同一分析表明,ChatGPT-3 上的每次查詢成本在 3 到 14 歐元之間,比基準高 15-70 倍。

半導體行業(yè)正在積極尋找應對成本/查詢挑戰(zhàn)的解決方案。盡管所有嘗試都受到歡迎,但解決方案必須來自新穎的芯片架構,該架構將打破內(nèi)存墻并大幅降低功耗。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19896

    瀏覽量

    235228
  • 人工智能
    +關注

    關注

    1806

    文章

    49028

    瀏覽量

    249521
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10790

原文標題:推理芯片的最大挑戰(zhàn)

文章出處:【微信號:TenOne_TSMC,微信公眾號:芯片半導體】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI推理的存儲,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存儲HBM不再是唯一熱門,更多存儲芯片與AI推理芯片結(jié)合,擁有了市場機會。 ? 已經(jīng)有不少AI推理
    的頭像 發(fā)表于 03-03 08:51 ?1687次閱讀
    AI<b class='flag-5'>推理</b>的存儲,看好SRAM?

    Aux-Think打破視覺語言導航任務的常規(guī)推理范式

    視覺語言導航(VLN)任務的核心挑戰(zhàn),是讓機器人在復雜環(huán)境中聽懂指令、看懂世界,并果斷行動。我們系統(tǒng)性地引入推理任務,探索其在導航策略學習中的作用,并首次揭示了VLN中的“推理崩塌”現(xiàn)象。研究發(fā)現(xiàn)
    的頭像 發(fā)表于 07-08 10:00 ?128次閱讀
    Aux-Think打破視覺語言導航任務的常規(guī)<b class='flag-5'>推理</b>范式

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發(fā)展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大模型推理顯存和計算量的估計
    發(fā)表于 07-03 19:43

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    “思維模型”的大量計算需求,例如大型語言模型和專家混合模型。Ironwood 可擴展至多達 9216 個芯片,提供 42.5 Exaflops 的計算能力,使其比世界上最大的超級計算機更強大。 一
    的頭像 發(fā)表于 04-12 11:10 ?1838次閱讀
    谷歌第七代TPU Ironwood深度解讀:AI<b class='flag-5'>推理</b>時代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項。 ? 在核心亮點層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設計的 TPU 芯片,
    的頭像 發(fā)表于 04-12 00:57 ?2437次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴展推理時間計算、運用強化學習、開展監(jiān)督微調(diào)和進行提煉等。本文將深入探討LLM
    的頭像 發(fā)表于 04-03 12:09 ?506次閱讀
    詳解 LLM <b class='flag-5'>推理</b>模型的現(xiàn)狀

    使用OpenVINO?進行推理時的內(nèi)存泄漏怎么解決?

    使用 OpenVINO? 進行推理時,內(nèi)存會隨著時間的推移而增加,并導致程序崩潰。
    發(fā)表于 03-06 08:29

    黑芝麻智能芯片加速DeepSeek模型推理

    近日,黑芝麻智能宣布,其武當C1200家族芯片已成功完成DeepSeek模型推理的部署,而A2000芯片也將全面支持基于DeepSeek的多模態(tài)大模型推理。這一消息標志著黑芝麻智能在推
    的頭像 發(fā)表于 02-14 15:04 ?584次閱讀

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?721次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理</b>性能

    Neuchips展示大模型推理ASIC芯片

    。新的芯片解決方案Raptor使企業(yè)能夠以現(xiàn)有解決方案的一小部分成本部署大型語言模型(LLM)推理。 Neuchips?CEO Ken Lau表示:“我們很高興在CES 2024上向業(yè)界展示我們
    的頭像 發(fā)表于 01-06 17:30 ?767次閱讀

    使用vLLM+OpenVINO加速大語言模型推理

    隨著大語言模型的廣泛應用,模型的計算需求大幅提升,帶來推理時延高、資源消耗大等挑戰(zhàn)。
    的頭像 發(fā)表于 11-15 14:20 ?1428次閱讀
    使用vLLM+OpenVINO加速大語言模型<b class='flag-5'>推理</b>

    高效大模型的推理綜述

    大模型由于其在各種任務中的出色表現(xiàn)而引起了廣泛的關注。然而,大模型推理的大量計算和內(nèi)存需求對其在資源受限場景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大模型推理效率的技術。本文對現(xiàn)有的關于高效
    的頭像 發(fā)表于 11-15 11:45 ?1461次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    當前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)

    隨著大模型時代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時、高效內(nèi)存管理、能耗等等。
    的頭像 發(fā)表于 09-24 16:57 ?1200次閱讀

    AMD助力HyperAccel開發(fā)全新AI推理服務器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè),致力于開發(fā) AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲器帶寬使用,并通過將此解決方案應用于大型語言模型來
    的頭像 發(fā)表于 09-18 09:37 ?883次閱讀
    AMD助力HyperAccel開發(fā)全新AI<b class='flag-5'>推理</b>服務器

    【飛凌嵌入式OK3576-C開發(fā)板體驗】rkllm板端推理

    交叉編譯 在完成模型的量化構建后,就能夠在目標硬件平臺OK3576上實現(xiàn)模型的推理功能了。 板端推理的示例代碼位于kllm-runtime/examples/rkllm_api_demo目錄中,該
    發(fā)表于 08-31 22:45