一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-05-07 09:09 ? 次閱讀

解析 AI 在生產(chǎn)環(huán)境中的部署成本,助力用戶實(shí)現(xiàn)性能優(yōu)化和盈利能力。

隨著AI模型的持續(xù)演進(jìn)與應(yīng)用普及,企業(yè)需要在價(jià)值最大化的目標(biāo)下進(jìn)行精心權(quán)衡。

這是因?yàn)橥评恚▽?shù)據(jù)輸入模型并獲取輸出的運(yùn)算過程)面臨與模型訓(xùn)練截然不同的計(jì)算挑戰(zhàn)。

預(yù)訓(xùn)練模型(數(shù)據(jù)導(dǎo)入、token化分解及模式識(shí)別的過程)本質(zhì)上是單次的成本投入。但在推理過程中,模型的每個(gè)提示詞 (prompt)都會(huì)生成token,而每個(gè)token都會(huì)產(chǎn)生成本。

這意味著,隨著AI模型性能提升和應(yīng)用規(guī)模擴(kuò)大,token的生成量及其相關(guān)計(jì)算成本也會(huì)增加。對(duì)于希望構(gòu)建AI能力的企業(yè)來說,關(guān)鍵在于控制計(jì)算成本的同時(shí),以最快的速度、最高的準(zhǔn)確性和服務(wù)質(zhì)量生成盡可能多的token。

為此,AI生態(tài)系統(tǒng)持續(xù)推動(dòng)推理效率優(yōu)化與成本壓縮。得益于模型優(yōu)化技術(shù)的重大突破,過去一年中推理成本持續(xù)呈下降趨勢(shì),催生了日益先進(jìn)、高能效的加速計(jì)算基礎(chǔ)架構(gòu)和全棧解決方案。

根據(jù)斯坦福大學(xué)“以人為本人工智能研究所 (HAI)”發(fā)布的《2025年人工智能指數(shù)報(bào)告》,“2022年11月至2024年10月期間,達(dá)到GPT-3.5水平系統(tǒng)的推理成本降幅超280倍。硬件層面的成本年降幅30%,而能效年提升率達(dá)40%。開放權(quán)重模型也在縮小與閉源模型的差距,部分基準(zhǔn)測(cè)試中,性能差距在一年內(nèi)就從8%縮小到僅1.7%。多重趨勢(shì)共同作用下先進(jìn)AI的門檻正在迅速降低。”

隨著模型持續(xù)演進(jìn)引發(fā)需求及token量級(jí)增加,企業(yè)必須擴(kuò)展其加速計(jì)算資源,以提供下一代AI邏輯推理工具,否則將面臨成本和能耗增加的風(fēng)險(xiǎn)。

以下是推理經(jīng)濟(jì)學(xué)概念的入門指南,幫助企業(yè)可以建立戰(zhàn)略定位,實(shí)現(xiàn)高效、高性價(jià)比且可盈利的大規(guī)模AI解決方案。

AI 推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語

了解推理經(jīng)濟(jì)學(xué)的關(guān)鍵術(shù)語是理解其重要性的基礎(chǔ)。

詞元 (Token)是AI模型中的基本數(shù)據(jù)單位,源自訓(xùn)練過程中的文本、圖像、音頻片段和視頻等數(shù)據(jù)。通過token化 (tokenization)過程,原始數(shù)據(jù)被解構(gòu)成最小語義單元。在訓(xùn)練過程中,模型會(huì)學(xué)習(xí)標(biāo)記token之間的關(guān)系,從而執(zhí)行推理并生成準(zhǔn)確、相關(guān)的輸出。

吞吐量 (Throughput)指的是模型在單位時(shí)間內(nèi)輸出的token量,其本身是運(yùn)行模型基礎(chǔ)架構(gòu)的一個(gè)函數(shù)。吞吐量通常以token/每秒為單位,吞吐量越高,意味著基礎(chǔ)架構(gòu)的回報(bào)越高。

延遲(Latency)是指從輸入提示到模型開始響應(yīng)所需的時(shí)間。較低的延遲意味著更快的響應(yīng)。衡量延遲的兩種主要方法包括:

首 token 時(shí)延 (Time to First Token, TTFT):用戶輸入提示后,模型生成第一個(gè)輸出 token 所需的時(shí)間。

首 token 后,每個(gè)輸出 token 的時(shí)延 (Time per Output Token, TPOT):連續(xù) token 之間的平均輸出時(shí)間,也可以理解為,模型為每個(gè)用戶的查詢請(qǐng)求生成一個(gè)完整輸出 token 所需要的時(shí)間。它也被稱為“token 間延遲”或“token 到 token 延遲”。

TTFT和TPOT固然是重要的基準(zhǔn)參數(shù),但它們只是眾多計(jì)算公式中的兩個(gè)部分,只關(guān)注這兩項(xiàng)指標(biāo)仍可能導(dǎo)致性能衰減或成本超支。

為了考慮其他相互依賴的因素,IT領(lǐng)導(dǎo)者開始衡量“有效吞吐量(goodput)”,即在維持目標(biāo)TTFT和TPOT水平的前提下,系統(tǒng)實(shí)際達(dá)成的有效吞吐量。這一指標(biāo)使企業(yè)能夠以更全面的方式評(píng)估性能,保持吞吐量、延遲和成本的最優(yōu)配置,確保運(yùn)營效率和優(yōu)秀的用戶體驗(yàn)。

能效是衡量 AI 系統(tǒng)將電能轉(zhuǎn)化為計(jì)算輸出效率的指標(biāo),以每瓦特性能來表示。通過使用加速計(jì)算平臺(tái),組織可以在降低能耗的同時(shí),最大化每瓦特的 token 處理量。

擴(kuò)展定律 (Scaling Law) 如何應(yīng)用于推理成本

理解推理經(jīng)濟(jì)學(xué)的核心在于掌握 AI 的三大擴(kuò)展定律:

-預(yù)訓(xùn)練擴(kuò)展 (Pretraining scaling):最初的擴(kuò)展定律表明,通過提升訓(xùn)練數(shù)據(jù)集規(guī)模、模型參數(shù)數(shù)量以及增加計(jì)算資源,能夠?qū)崿F(xiàn)模型智能水平和準(zhǔn)確率的可預(yù)測(cè)性提升。

-后訓(xùn)練 (Post-training):對(duì)模型的準(zhǔn)確性和領(lǐng)域?qū)I(yè)性進(jìn)行微調(diào),以便將其用于應(yīng)用開發(fā)。可以使用檢索增強(qiáng)生成 (RAG) 等技術(shù)從企業(yè)數(shù)據(jù)庫返回更相關(guān)的答案。

-測(cè)試時(shí)擴(kuò)展 (Test-time scaling,又稱“長思考”或“邏輯推理”):在推理過程中,模型會(huì)分配額外的計(jì)算資源,以評(píng)估多種可能的結(jié)果,然后得出最佳答案。

雖然AI在不斷發(fā)展,后訓(xùn)練和測(cè)試時(shí)擴(kuò)展技術(shù)也在持續(xù)迭代,但這并不意味著預(yù)訓(xùn)練即將消失,它仍然是擴(kuò)展模型的重要方法。要支持后訓(xùn)練和測(cè)試時(shí)擴(kuò)展,仍需要進(jìn)行預(yù)訓(xùn)練。

可盈利的 AI 需要全棧方案

相較于只經(jīng)過預(yù)訓(xùn)練和后訓(xùn)練的模型推理,采用測(cè)試時(shí)擴(kuò)展的模型會(huì)生成多個(gè)token來解決復(fù)雜問題。這雖然可以顯著提升準(zhǔn)確性和模型輸出的相關(guān)性,但計(jì)算成本也會(huì)更高。

更智能的 AI 意味著生成更多 token 來解決問題,而優(yōu)質(zhì)的用戶體驗(yàn)意味著盡可能快地生成這些 token。AI 模型越智能、越快速,對(duì)公司和客戶的實(shí)用性就越大。

企業(yè)需要擴(kuò)展其加速計(jì)算資源,構(gòu)建能支持復(fù)雜問題求解、代碼生成和多步驟規(guī)劃的下一代 AI 邏輯推理工具,同時(shí)避免成本激增。

這需要先進(jìn)的硬件和全面優(yōu)化的軟件棧。NVIDIA AI 工廠產(chǎn)品路線圖旨在滿足計(jì)算需求,幫助解決復(fù)雜的推理問題,同時(shí)實(shí)現(xiàn)更高的效率。

AI 工廠集成了高性能 AI 基礎(chǔ)設(shè)施、高速網(wǎng)絡(luò)和經(jīng)優(yōu)化的軟件,可大規(guī)模生產(chǎn)智能。這些組件設(shè)計(jì)靈活、可編程,使企業(yè)能夠優(yōu)先關(guān)注對(duì)其模型或推理需求更關(guān)鍵的領(lǐng)域。

為了進(jìn)一步簡化在部署大規(guī)模 AI 邏輯推理模型時(shí)的操作,AI 工廠在高性能、低延遲的推理管理系統(tǒng)上運(yùn)行,確保以盡可能低的成本滿足 AI 邏輯推理所需的速度和吞吐量,從而最大化提升 token 收入。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5193

    瀏覽量

    105500
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33628

    瀏覽量

    274365
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3469

    瀏覽量

    49854

原文標(biāo)題:推理經(jīng)濟(jì)學(xué)如何驅(qū)動(dòng) AI 價(jià)值最大化

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI推理的存儲(chǔ),看好SRAM?

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)近幾年,生成式AI引領(lǐng)行業(yè)變革,AI訓(xùn)練率先崛起,帶動(dòng)高帶寬內(nèi)存HBM一飛沖天。但我們知道AI推理的廣泛應(yīng)用才能推動(dòng)A
    的頭像 發(fā)表于 03-03 08:51 ?1423次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存儲(chǔ),看好SRAM?

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命 Google 發(fā)布了 Ironwood,這是其第七代張量處理單元 (TPU),專為推理而設(shè)計(jì)。這款功能強(qiáng)大的 AI
    的頭像 發(fā)表于 04-12 11:10 ?1354次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時(shí)代的硬件革命

    華為AI WAN在智算邊緣推理網(wǎng)絡(luò)中的關(guān)鍵優(yōu)勢(shì)

    WAN:智算邊緣推理網(wǎng)絡(luò)架構(gòu)、實(shí)踐及產(chǎn)業(yè)進(jìn)展”的演講,詳細(xì)闡述了AI WAN在智算邊緣推理網(wǎng)絡(luò)中的關(guān)鍵優(yōu)勢(shì)及其對(duì)產(chǎn)業(yè)發(fā)展的深遠(yuǎn)意義。
    的頭像 發(fā)表于 04-09 09:53 ?273次閱讀

    DeepSeek推動(dòng)AI算力需求:800G光模塊的關(guān)鍵作用

    隨著人工智能技術(shù)的飛速發(fā)展,AI算力需求正以前所未有的速度增長。DeepSeek等大模型的訓(xùn)練與推理任務(wù)對(duì)算力的需求持續(xù)攀升,直接推動(dòng)了服務(wù)器、光通信設(shè)備以及數(shù)據(jù)中心基礎(chǔ)設(shè)施的升級(jí)。特別是在大規(guī)模算
    發(fā)表于 03-25 12:00

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI 推理模型。 作
    的頭像 發(fā)表于 03-20 15:03 ?508次閱讀

    AI變革正在推動(dòng)終端側(cè)推理創(chuàng)新

    尖端AI推理模型DeepSeek R1一經(jīng)問世,便在整個(gè)科技行業(yè)引起波瀾。因其性能能夠媲美甚至超越先進(jìn)的同類模型,顛覆了關(guān)于AI發(fā)展的傳統(tǒng)認(rèn)知。
    的頭像 發(fā)表于 02-20 10:54 ?397次閱讀

    淺談AI Agent的發(fā)展階段

    2025年伊始,有關(guān)AI變革潛力的討論熱度正不斷攀升。人們對(duì)AI的關(guān)注焦點(diǎn)正從AI工具轉(zhuǎn)向創(chuàng)建及部署AI Agent。在今年最新發(fā)布的文章中,美國數(shù)據(jù)分析與
    的頭像 發(fā)表于 02-19 09:50 ?521次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬美元。
    的頭像 發(fā)表于 02-08 09:59 ?536次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技術(shù)、市場(chǎng)與未來

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相繼發(fā)布,預(yù)示著生成式AI研究正從預(yù)訓(xùn)練轉(zhuǎn)向推理(Inference),以提升AI邏輯推理
    的頭像 發(fā)表于 01-20 11:16 ?700次閱讀
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技術(shù)、市場(chǎng)與未來

    AI推理CPU當(dāng)?shù)?,Arm驅(qū)動(dòng)高效引擎

    本應(yīng)發(fā)揮關(guān)鍵作用,但其重要性卻常常被忽視。 ? “對(duì)于那些希望將大語言模型(LLM)集成到產(chǎn)品和服務(wù)中的企業(yè)和開發(fā)者來說,CPU 通常是首選”。Arm 中國區(qū)業(yè)務(wù)全球副總裁鄒挺在接受采訪時(shí)表示。為了適應(yīng)AI推理的應(yīng)用落地,CPU
    的頭像 發(fā)表于 11-13 14:34 ?3082次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>CPU當(dāng)?shù)?,Arm驅(qū)動(dòng)高效引擎

    李開復(fù):中國擅長打造經(jīng)濟(jì)實(shí)惠的AI推理引擎

    10月22日上午,零一萬物公司的創(chuàng)始人兼首席執(zhí)行官李開復(fù)在與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)在推理成本上已實(shí)現(xiàn)了顯著優(yōu)勢(shì),比OpenAI的GPT-4o模型低了31倍。他強(qiáng)調(diào),中國擅長打造經(jīng)濟(jì)實(shí)惠的AI
    的頭像 發(fā)表于 10-22 16:54 ?609次閱讀

    AMD助力HyperAccel開發(fā)全新AI推理服務(wù)器

    HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè),致力于開發(fā) AI 推理專用型半導(dǎo)體器件和硬件,最大限度提升推理工作負(fù)載的存儲(chǔ)器帶寬使用,并通過將此解決方案應(yīng)用于大型語言模型來
    的頭像 發(fā)表于 09-18 09:37 ?683次閱讀
    AMD助力HyperAccel開發(fā)全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>服務(wù)器

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)LLM大模型推理加速關(guān)鍵技術(shù)的詳細(xì)探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行
    的頭像 發(fā)表于 07-24 11:38 ?1521次閱讀

    《華強(qiáng)北經(jīng)濟(jì)學(xué)

    在繁華與奇跡交織的深圳,有一本奇書悄然走紅,它便是《華強(qiáng)北經(jīng)濟(jì)學(xué)》,由那位深諳市場(chǎng)脈搏、筆觸帶風(fēng)的宋仕強(qiáng)先生所著。這本書,仿佛是華強(qiáng)北這片創(chuàng)業(yè)熱土的縮影,用一個(gè)個(gè)生動(dòng)鮮活的故事,詮釋了什么是“從
    發(fā)表于 07-10 09:28

    如何基于OrangePi?AIpro開發(fā)AI推理應(yīng)用

    。通過昇騰CANN軟件棧的AI編程接口,可滿足大多數(shù)AI算法原型驗(yàn)證、推理應(yīng)用開發(fā)的需求。AscendCL(AscendComputingLanguage,昇騰計(jì)算
    的頭像 發(fā)表于 06-04 14:23 ?781次閱讀
    如何基于OrangePi?AIpro開發(fā)<b class='flag-5'>AI</b><b class='flag-5'>推理</b>應(yīng)用