人工智能正在影響幾乎所有可以想象的應(yīng)用領(lǐng)域,但它越來越多地從數(shù)據(jù)中心data center轉(zhuǎn)移到邊緣edge,在那里需要比過去更快地處理大量數(shù)據(jù)。
這要求在更接近數(shù)據(jù)源的地方大幅提高性能,但仍然只能使用非常少的功耗,并且價(jià)格便宜。雖然訓(xùn)練將繼續(xù)在云中進(jìn)行,但長距離移動(dòng)大量數(shù)據(jù)的成本很高,所以邊緣AI計(jì)算的價(jià)值很大。本地處理的數(shù)據(jù)越多,成本就越低,獲得結(jié)果的時(shí)間就越快。
實(shí)現(xiàn)這些好處并不容易,需要更深入地了解正在處理的數(shù)據(jù)類型,這在過去五年中只在大型數(shù)據(jù)中心中考慮,谷歌、特斯拉、Meta 等公司為這個(gè)考慮的特定需求設(shè)計(jì)定制芯片。
在邊緣,才剛剛開始關(guān)注AI需求并定義滿足這些需求的必要功能。
在邊緣添加功能以滿足其他潛在AI市場(chǎng)是很誘人的,但這通常會(huì)導(dǎo)致面積、功耗和復(fù)雜性增加,從而損害芯片主要應(yīng)用的性能。對(duì)于邊緣計(jì)算,需要嚴(yán)苛地看待所有功能,以判斷它們是否真的需要出現(xiàn)在芯片中。
每個(gè)新功能都會(huì)影響 PPA,因此保持對(duì)目標(biāo)市場(chǎng)和場(chǎng)景的關(guān)注是首要考慮的事情。
在邊緣處理的最大好處是低延遲。當(dāng)某一天必須實(shí)時(shí)(或快速)需要AI計(jì)算做出決定時(shí),邊緣AI計(jì)算真的會(huì)大放異彩。
盡管邊緣和AI都有很大的前景,但是組合起來的應(yīng)用場(chǎng)景和現(xiàn)在的主流有很大差異,在設(shè)計(jì)過程中有更多的Tradeoffs。需要考慮芯片的供電方式、熱限制、是否需要支持訓(xùn)練或推理、精度要求、芯片部署的環(huán)境以及支持的數(shù)字格式。例如:
1、支持更多的功能集意味著增加面積和功耗,并在不使用功能時(shí)增加門控功能的復(fù)雜性。由于數(shù)據(jù)移動(dòng)會(huì)影響性能并消耗大量功耗。
2、設(shè)計(jì)人員需要充分了解需要移動(dòng)多少數(shù)據(jù),以開發(fā)能夠最大限度地減少邊緣數(shù)據(jù)移動(dòng)的架構(gòu)。
做出正確的選擇
不同的應(yīng)用場(chǎng)景將會(huì)有不同的Tradeoffs,需要圍繞傳遞給邊緣人工智能處理器的數(shù)據(jù)的數(shù)量和類型做出一系列決策。
芯片是只接收推理數(shù)據(jù),還是包括模型更新?芯片是否需要根據(jù)看到的特定數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)?該處理器還與哪些其他芯片和系統(tǒng)通信,頻率如何?芯片是否會(huì)長時(shí)間處于非活動(dòng)狀態(tài),在此期間進(jìn)入深度power-down模式,還是大部分時(shí)間都處于開啟狀態(tài)?這些問題的答案將推動(dòng)對(duì)計(jì)算引擎架構(gòu)、片上SRAM存儲(chǔ)以及是否使用外部DRAM(以及類型和容量)的決策。
人工智能處理一般只在發(fā)生某些事件發(fā)生時(shí)進(jìn)行推理,兩個(gè)最重要的技術(shù)是動(dòng)態(tài)電壓和頻率調(diào)節(jié)(dynamic voltage and frequency scaling(DVFS)) 和low-leakage library 。DVFS 在需要時(shí)提供高性能,然后在不需要時(shí)降低電源電壓和工作頻率。low-leakage library,特別是嵌入式SRAM,需要占據(jù)很大比例的系統(tǒng)功耗。這兩者是相互作用的。DVFS受限于其電源電壓降低的水平。這幾乎總是由SRAM工作的最小電壓決定的,或者在待機(jī)狀態(tài)下,SRAM仍將保留數(shù)據(jù)但不讀取或?qū)懭氲淖钚‰妷海ǚQ為Vmin)。由于功耗與電壓的平方成正比,因此將Vmin從0.7V降低到0.5V將使SRAM功率減半。
另一個(gè)問題是,人工智能是一項(xiàng)快速變化的領(lǐng)域,因此除了在功耗、性能和面積/成本之間取得適當(dāng)?shù)?strong>Tradeoff外,還需要在設(shè)計(jì)中內(nèi)置靈活性。
一方面,早已存在像CPU這樣通用的東西,它為你提供了最大的編程靈活性,但可能具有最大的面積和最差的能效。另一方面,也存在有固定功能的硬件加速器,它們具有最佳的面積和功耗組合,但幾乎沒有設(shè)計(jì)后調(diào)整的靈活性。如果在設(shè)計(jì)流片后規(guī)格或工作負(fù)載要求發(fā)生變化,則在不進(jìn)行重新流片的情況下,幾乎沒有辦法修改。
從靈活性到效率,從CPU到GPU,再到DSP、NPU,最后是ASIC。實(shí)際的選擇也取決于市場(chǎng)的成熟度和要求,對(duì)應(yīng)的場(chǎng)景是否需要考慮靈活性,考慮什么維度的靈活性?這是一個(gè)問題?
自動(dòng)駕駛和手機(jī)終端發(fā)展速度很快,一直在增加新的需求,因此使用NPU或NPU+DSP是靈活性、性能和能源效率的最佳組合。
工藝技術(shù)也是一個(gè)重要的因素,可以進(jìn)行功耗、性能、面積/成本 (PPA/C) 的權(quán)衡。
獲得更好的PPA的最簡單方法是通過使用最先進(jìn)的工藝節(jié)點(diǎn)。但是有很多問題。它通常非常昂貴,并且缺乏嵌入式非易失性存儲(chǔ)器,而這通常是物聯(lián)網(wǎng)設(shè)備的必備。
審核編輯:黃飛
-
cpu
+關(guān)注
關(guān)注
68文章
11062瀏覽量
216453 -
sram
+關(guān)注
關(guān)注
6文章
783瀏覽量
115775 -
AI
+關(guān)注
關(guān)注
88文章
34765瀏覽量
276914 -
人工智能
+關(guān)注
關(guān)注
1805文章
48898瀏覽量
247833 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1589瀏覽量
8944
原文標(biāo)題:邊緣設(shè)備上的chatGPT
文章出處:【微信號(hào):數(shù)字芯片實(shí)驗(yàn)室,微信公眾號(hào):數(shù)字芯片實(shí)驗(yàn)室】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
探索ChatGPT的信息抽取能力

部署在邊緣設(shè)備上的輕量級(jí)模型
【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))6.FPGA連接ChatGPT 4
在FPGA設(shè)計(jì)中是否可以應(yīng)用ChatGPT生成想要的程序呢
OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

在IC設(shè)計(jì)/驗(yàn)證中怎么應(yīng)用ChatGPT呢?
科技大廠競逐AIGC,中國的ChatGPT在哪?
如何選擇邊緣AI設(shè)備
10分鐘教你如何ChatGPT最詳細(xì)注冊(cè)教程
ChatGPT在智能投顧領(lǐng)域的應(yīng)用

在Python里使用ChatGPT

PyCoach 對(duì)ChatGPT的探索分析
ChatGPT Plus怎么支付 開通ChatGPT plus有什么功能?

評(píng)論