Tensor Core GPU 掀起了一股生成式 AI 模型的淘金熱。無論是幫助學生完成數(shù)學作業(yè)、計劃假期,還是學習準備六道菜的飯菜,生成式 AI 都準備好了答案。但這只是人工智能的一個方面,并不是每個應用程序都需要它。
人工智能——現(xiàn)在是一個包羅萬象的術語,指的是使用算法來學習、預測和做出決策的過程——模仿人類智能。它可以承擔諸如識別面孔和模式以及解釋解決問題的數(shù)據(jù)等工作。許多任務可以通過人工智能實現(xiàn)自動化,以提高生產(chǎn)力,并將對人腦來說過于復雜或需要太多手動工作的數(shù)據(jù)鏈接在一起。
但是,利用 AI 所需的計算能力差異很大,具體取決于應用程序和 AI 的類型。3 級自動駕駛需要與使用 AI 監(jiān)控客戶流量的零售應用程序截然不同的 AI。任務越復雜,結果越準確,對 AI 計算能力的需求就越大,訓練 AI 必須收集的數(shù)據(jù)就越多。
那么,開發(fā)人員應該如何做出正確的 AI 選擇呢?“人工智能需要從數(shù)據(jù)中學習,”西門子EDA集成電路設計驗證AI/ML解決方案產(chǎn)品經(jīng)理Dan Yu說,“每個開發(fā)人員需要問的第一個問題是,‘我在哪里可以獲得數(shù)據(jù)來訓練我的人工智能和機器學習模型?第三方數(shù)據(jù)可能可用,但您必須對其進行驗證,以確保它是正確的數(shù)據(jù),并且 AI/機器學習模型做出正確的預測。如果沒有數(shù)據(jù),就沒有機器學習。
至少 70% 的 AI 訓練時間用于查找正確的數(shù)據(jù)、清理數(shù)據(jù)以及從數(shù)據(jù)中提取有用的信息,這是很常見的。大部分余額都花在了微調(diào)人工智能和機器學習模型上。
“當我們談論訓練、微調(diào)和將人工智能機器學習模型部署到應用程序中時,許多自動駕駛領域的領導者都在努力尋找足夠有意義的數(shù)據(jù),”Yu 說?!八麄兛赡苡修k法從行車記錄儀和傳感器(如汽車周圍的激光雷達)收集大量數(shù)據(jù),但大多數(shù)數(shù)據(jù)在訓練人工智能模型時沒有用。您希望模型能夠體驗所有難以想象的場景。例如,一棟建筑物剛剛倒塌在您的車輛前方。你的行動是什么?作為人類,我們知道我們想逃跑。它存在于人類基因中。但是,如果沒有遇到這種情況,它就不在AI基因中。如果你沒有數(shù)據(jù)來訓練人工智能做某事,人工智能只會假設什么都沒發(fā)生,自動駕駛汽車就會繼續(xù)行駛。數(shù)據(jù)是無處不在的人工智能的關鍵部分。
人工智能的好處是有代價
的 人工智能在制造業(yè)、汽車、金融、醫(yī)療保健、教育、農(nóng)業(yè)、智慧城市、娛樂、國防、能源、零售和數(shù)據(jù)中心等領域的作用越來越大。人工智能芯片現(xiàn)在安裝在臺式機和筆記本電腦中。然而,人工智能為眾多行業(yè)帶來的所有好處都不是免費的。
NVIDIA 的 Tensor Core GPU 的成本高達 40,000 美元,功耗高達 700W。對于科學和語言建模等高端應用,需要高性能機器學習系統(tǒng),例如 Cerebras 的機器學習系統(tǒng)。由2.2萬億個晶體管和6,850個AI優(yōu)化計算內(nèi)核組成的新的第二代晶圓級處理器(WSE-000)將耗資數(shù)百萬美元,并具有多個冗余4KW電源。
“每個人都在談論生成式人工智能可以為你做的一切,但有一個隱藏的成本,”Ampere首席產(chǎn)品官Jeff Wittich說。“如果我們只關心運行最大性能,人工智能將很快成為世界第一大能源用戶。如今,數(shù)據(jù)中心產(chǎn)生的一氧化碳已占全球的 3% 左右2——不僅僅是航空和航運。人工智能將需要更多倍的計算能力,而這很快就會失控。這可以比作擁有一輛賽車。當然,它可以跑得非??欤枰罅康娜剂?。對于比賽來說,這沒關系。對于每個人來說,每天駕駛其中之一將是災難性的。
優(yōu)化模型和提高計算利用率是關鍵?!叭缃瘢S多 AI 推理模型都在耗電的 GPU 上運行,”Wittich 說?!斑@些 GPU 非常強大,可以快速運行模型,但我們越來越多地看到它們的功能沒有得到充分利用。許多公司不需要一直使用所有電源,而 GPU 在閑置時仍在使用電源。
AI的類型
生成式 AI 和預測性 AI 是兩種截然不同的 AI。前者需要高性能和密集計算,而后者可以使用低成本的SoC來實現(xiàn)。
瑞薩電子高級總監(jiān)兼業(yè)務、加速和生態(tài)系統(tǒng)負責人Kaushal Vora表示:“當今的AI用例大致可分為兩個領域——生成式AI和預測性AI?!吧墒饺斯ぶ悄艿闹饕繕耸巧尚聝?nèi)容,而預測性人工智能的目標是分析數(shù)據(jù)以做出預測和業(yè)務決策。生成式 AI 利用基礎模型和轉(zhuǎn)換器來針對語言學、文本、圖像、視頻等領域的廣泛和大規(guī)模應用。這些模型往往非常大,通常消耗數(shù)百 GB 的內(nèi)存,并且需要在云中以 GPU 和 CPU 的形式進行超大規(guī)模計算來訓練和運行推理。
相比之下,預測性 AI 在資源受限的網(wǎng)絡層上運行,例如網(wǎng)絡邊緣和物聯(lián)網(wǎng)端點。“這種類型的人工智能通常也被稱為邊緣人工智能或TinyML,”Vora說?!斑吘?端點的一些領域和用例正在迅速采用人工智能,包括語音作為人機通信、環(huán)境傳感和預測分析以及機器維護的用戶界面。我們看到廣泛的垂直行業(yè)采用。運行這種AI的計算引擎通常是具有幾個GOPS(每秒千兆操作)的微控制器,或者是性能低于1 TOPS的微處理器。
與此同時,生成式 AI 正在推動服務器級別對極高 AI 性能的需求。Synopsys AI/ML 處理器產(chǎn)品經(jīng)理 Gordon Cooper 表示,該級別的關鍵性能指標 (KPI) 與性能有關,這意味著人們需要等待多長時間才能讓生成式 AI 給出答案,以及面積和功耗/熱成本。“唯一需要大量生成式人工智能(1,000+ TOPS)的實時應用是L3/L4自動駕駛。鑒于對生成式人工智能的興奮和炒作,關于如何最好地將這些功能轉(zhuǎn)移到邊緣設備,人們提出了許多問題。算法必須發(fā)展。像 ChatGPT 這樣的東西需要太多參數(shù)。實時人工智能的性能水平需要提高才能滿足需求。
選擇正確的 AI
在選擇正確的 AI設計時需要考慮許多因素,包括項目目標、準確性要求、靈活性、中央計算與邊緣計算以及設計權衡。
1) 項目目標
選擇合適的 AI 取決于應用程序要求。您需要生成式 AI 還是預測性 AI 就足夠了?復雜性、準確性、延遲、安全性、隱私性和安全性要求是什么?因為人工智能不是免費的,所以僅僅因為其他人都在做人工智能就包括人工智能是沒有意義的。遲早,人工智能的炒作會消失。
例如,在使用聊天機器人將客戶引導到正確部門的一般客戶服務應用程序中,自然語言處理能力和流暢性很重要,但延遲和安全性并不是主要問題。幾秒鐘的延遲并不重要。相反,在自動駕駛中,準確性、延遲、安全性和安全性都非常重要。制動時延遲幾秒鐘可能會導致碰撞。用于控制娛樂系統(tǒng)的車內(nèi)語音控制助手則是另一回事。故障可能會造成不便,但不會造成緊急情況。
同樣重要的是要記住,每個決定都會影響整體預算。
2)什么才足夠好?
一些開發(fā)人員傾向于不惜一切代價追求完美,或者至少想要高性能和準確性。但對于許多 AI 應用程序來說,達到 90% 的準確率就足夠了。超過 95% 雖然可行,但成本可能非常高。因此,從最低要求開始。如果任務可以以 90% 的準確率得到滿足,請到此為止。
3) 準確性 在做出 AI 芯片設計決策時,需要考慮多種因素,例如準確性、性能、移動性、靈活性和預算。
Synopsys戰(zhàn)略營銷經(jīng)理Ron Lowman認為,兩個簡單的問題決定了將哪種AI芯片用于哪些應用。“首先,成功所需的最低精度是多少?其次,你能花多少錢來達到這個精度?人工智能只是一種新的生產(chǎn)力工具,隨著時間的推移,非常聰明的工程師和企業(yè)家將對其進行迭代,以改進大量流程,類似于電力驅(qū)動電機而不是手動曲柄。如果您需要高精度和合理的預算,NVIDIA 的產(chǎn)品是合理的選擇。但是,如果您可以接受低精度且預算較低,則可以選擇成本低得多的 AI 芯片或 AI 加速有限甚至沒有 AI 加速的傳統(tǒng) SoC。如果這些芯片需要移動且高效/低功耗,但預算較低,則可以接受更高效且精度較低的 SoC。如果你需要高精度和低功耗,這很昂貴,需要ASIC,或者你必須等到我們在新設計上迭代幾代人。
最昂貴的類別是具有大量 AI 加速的 SoC,可處理高度定制的壓縮算法。汽車需要高精度,并且需要移動和低功耗?!斑@意味著必須設計出比最高性能的 GPU/AI SoC 更高效的新 SoC,這需要大量投資。然后添加可靠性組件,“Lowman說。
人工智能設計標準中最重要的因素是準確性。
“精度通常受到位分辨率和/或算法選擇的影響,”Cooper說?!笆褂棉D(zhuǎn)換器算法,其精度優(yōu)于CNN,需要支持最新架構進步的神經(jīng)網(wǎng)絡和足夠的位分辨率來實現(xiàn)精度 - 盡管在很大程度上依賴于算法。在準確性之后,性能至關重要。如果你不能達到每秒可用的幀數(shù),世界上所有的準確性都無濟于事,即使它在很大程度上取決于用例。其他因素包括成本(通常與芯片面積有關)、功耗和開發(fā)工具的易用性。
4) 靈活性
對于需要靈活性和快速軟件升級的設計,可以考慮采用嵌入式 FPGA 方法。
Flex Logix 首席技術官 Cheng Wang 表示:“在實施 AI 時,無論是在芯片上還是在系統(tǒng)上,了解機器學習應用程序不斷變化的工作負載需求都很重要。“你需要設計靈活性,因為人工智能領域的發(fā)展太快了。您的芯片設計周期為三到五年,并且需要立即進行軟件升級。我們正在努力提高開發(fā)人員的意識。
集中式 AI 計算與邊緣 AI 計算 雖然云計算提供了需要強大計算
能力的 AI 解決方案,但許多其他實時應用(如智慧城市、零售、增強現(xiàn)實和預防性維護)可能會從邊緣 AI 中受益。
但是,這取決于正在構建的應用程序類型以及必須在其中工作的資源邊界。
“傳統(tǒng)上,從人工智能的角度來看,我們有一個以云為中心的智能模型,”瑞薩電子的Vora說?!叭绻覀冋娴南朐诰W(wǎng)絡的極端邊緣和端點實現(xiàn)智能,就必須以一種高效、實時響應和具有成本效益的方式完成?!?/p>
這意味著在端點內(nèi)的微型計算機上運行獨立于云的推理引擎。
“去中心化的智能模型具有巨大的技術和經(jīng)濟效益,”Vora說。“作為設計師/架構師/產(chǎn)品開發(fā)人員,在定義階段的早期考慮 AI/ML 并了解您必須使用哪些資源和系統(tǒng)約束至關重要。有多種軟件和硬件架構可供選擇。在使用邊緣和端點應用程序時,請尋找一個合作伙伴/供應商,不僅提供芯片,還提供 AI/ML 工具、參考解決方案和軟件的整體生態(tài)系統(tǒng)。
AI/ML應該在產(chǎn)品的定義階段考慮,因為硬件選擇主要由系統(tǒng)級需求和資源限制驅(qū)動。
大多數(shù)基于傳感器的應用都可以使用植根于信號處理、數(shù)學和統(tǒng)計學的更簡單的經(jīng)典機器學習算法來解決。機器視覺和語音識別等更復雜的應用需要深度學習方法。用例的復雜性將影響硬件選擇,包括在軟件中運行 AI 的純 CPU、與神經(jīng)加速引擎相結合的 CPU、專用 AI SoC 和高性能 CPU/GPU。
展望未來:人工智能有兩條道路。一個提供非常高的性能,但會消耗大量能量。另一個則更注重能源效率和優(yōu)化。兩者都有市場需求。
預計軟件和硬件的新人工智能創(chuàng)新將繼續(xù)發(fā)展。許多新的解決方案來自科技巨頭和初創(chuàng)企業(yè),包括 Axelera、SiMa.ai、Flex Logix、Quadric、Expedera、NeuReality、Kneron、Hailo.ai 等。以下是一些來自初創(chuàng)公司的例子。
根據(jù) MLCommons ML Perf 3.1 基準測試中的封閉邊緣功率類別,為 ML 邊緣計算設計的“拖放式”無代碼可視化編程據(jù)說優(yōu)于該領域的一些當前領導者。
另一個進步是 AI 推理服務器架構試圖取代傳統(tǒng)的以 CPU 為中心的多用途 AI 解決方案。運行 ChatGPT 每天可能要花費數(shù)百萬美元。運營效率現(xiàn)在變得越來越重要。系統(tǒng)級解決方案可以優(yōu)化和擴展 AI 工作流程,以降低網(wǎng)絡連接處理單元的整體運營成本。新的以人工智能為中心的方法更加基于硬件,可以更快地執(zhí)行指令處理。

圖 1:基于硬件的以 AI 為中心的架構依賴于網(wǎng)絡連接的處理單元來執(zhí)行大部分 AI 工作流。來源:NeuReality
最后,雖然 GPU 在 AI 應用中受到廣泛關注,但在軟件更新方面,嵌入式 FPGA 功耗更低、可擴展性更強且更靈活。這很重要,因為 AI 算法變化非???,無論是為了提高性能和兼容性,還是出于安全原因。
結論
人工智能創(chuàng)新將繼續(xù)加速。從長遠來看,人工智能開發(fā)將更強大、更節(jié)能、更低成本,為開發(fā)者提供更多的人工智能選擇
-
傳感器
+關注
關注
2565文章
52996瀏覽量
767391 -
云計算
+關注
關注
39文章
7976瀏覽量
140056 -
gpu
+關注
關注
28文章
4945瀏覽量
131230 -
AI
+關注
關注
88文章
35137瀏覽量
279796 -
機器學習
+關注
關注
66文章
8503瀏覽量
134603
發(fā)布評論請先 登錄
評論