Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統(tǒng)GPU和谷歌TPU。該芯片采用了全球首個LPU方案,解決了計算密度和內(nèi)存帶寬的瓶頸,推理速度提高了10倍,成本降低十分之一,性價比提高了100倍。芯片搭載了230MB大SRAM,內(nèi)存帶寬高達80TB/s,算力強大,支持多種機器學(xué)習(xí)框架進行推理。 Groq在演示中展示了多種模型的強大性能,并宣稱在三年內(nèi)將超越英偉達。產(chǎn)品特色包括API訪問速度快、支持多種開源LLM模型、價格優(yōu)勢等,成為大模型推理領(lǐng)域的新興力量。
Groq 公司的創(chuàng)始于2016年,旗艦產(chǎn)品是 Groq Tensor Streaming Processor Chip(TSP)和相應(yīng)的軟件,主要應(yīng)用于人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域。目標(biāo)市場包括人工智能和機器學(xué)習(xí)超大規(guī)模應(yīng)用、政府部門、高性能計算集群、自動駕駛車輛以及高性能邊緣設(shè)備。
Groq產(chǎn)品以其出色的推理性能、對多種開源LLM模型的支持以及具有競爭力的價格政策等特色,成為一個引人注目的選擇。這個芯片到底是怎么做的呢?
Part 1
Groq的做法
隨著人工智能(AI)和高性能計算(HPC)的融合發(fā)展,對于同時處理AI和HPC工作負(fù)載的需求日益增加。在這一背景下,Groq公司推出了其最新的AI推理加速器,旨在簡化計算、提高效率,并實現(xiàn)更高的可擴展性,軟件定義張量流多處理器(TSP),采用了一種全新的硬件軟件結(jié)合的方法,為人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用提供更高效的計算支持。
Groq AI推理加速器的設(shè)計思想是結(jié)合了HPC與AI的工作負(fù)載需求,提供了一種創(chuàng)新的可擴展計算架構(gòu)。
相比傳統(tǒng)的GPU,GroqChip 1具有更簡化的編程模型,更高的響應(yīng)速度以及更可靠的執(zhí)行。該芯片擁有多個特色組件,包括高速網(wǎng)絡(luò)、數(shù)據(jù)交換器、指令控制、SRAM內(nèi)存以及Groq TruePoint矩陣,使其具備了強大的計算能力和靈活性。
傳統(tǒng)的 CPU 架構(gòu)在控制邏輯方面隱藏了大量復(fù)雜性,如緩存、預(yù)取、亂序執(zhí)行和分支預(yù)測,但這些控制邏輯會減少可用于原始計算的面積。
與此相反,Groq 公司重新審視了硬件軟件的合約,創(chuàng)造出了更加可預(yù)測和基于流的硬件,并將更多的控制權(quán)交給了軟件。
硬件(CPU)定義了軟件,但隨著數(shù)據(jù)流型計算需求的增長以及摩爾定律和 Dennard 縮放的減速,CPU“抽象”不再是軟件開發(fā)的唯一基礎(chǔ)。因此,Hennessy 和 Patterson 提出了“計算機體系結(jié)構(gòu)的新黃金時代”的觀點,Lattner 提出了“編譯器的新黃金時代”的觀點,Karpathy 則提出了“軟件 2.0”的概念,這都預(yù)示著硬件與軟件的抽象合約已經(jīng)重新開啟,實現(xiàn)了“軟件定義硬件”的機會。
GroqChip 的可擴展架構(gòu)以簡化計算,通過使用大量單級劃分 SRAM 和顯式分配張量,實現(xiàn)了可預(yù)測的性能。
此外,Groq 公司設(shè)計了功能劃分的微體系結(jié)構(gòu),重新組織了多核網(wǎng)格,使得編譯器可以對程序執(zhí)行進行精確控制,從而提高了執(zhí)行效率。
Groq AI推理加速器支持各種規(guī)模的計算節(jié)點,從單個卡片到整個機架,都能實現(xiàn)高效的并行計算。
通過GroqRack和GroqNode等組件的組合,用戶可以根據(jù)實際需求靈活搭建計算集群,實現(xiàn)對不同規(guī)模工作負(fù)載的處理。
Groq 公司提供了強大的編譯器支持,通過在編譯時和運行時之間建立靜態(tài)-動態(tài)接口和硬件-軟件接口,賦予了軟件更多的數(shù)據(jù)編排權(quán)力。該編譯器能夠?qū)崿F(xiàn) SOTA(State of the Art)級別的性能,對于一些重要的矩陣操作如通用矩陣乘法(GEMM),Cholesky 分解等,取得了令人矚目的成果。
在系統(tǒng)拓?fù)浣Y(jié)構(gòu)方面,Groq 公司采用了低直徑網(wǎng)絡(luò) Dragonfly,以最小化網(wǎng)絡(luò)中的跳數(shù),提高了數(shù)據(jù)傳輸效率。
同時,通過 Chip-to-Chip(C2C)鏈接和流量控制,實現(xiàn)了多芯片間的通信。此外,Groq 公司還提出了一種多芯片間的分區(qū)和流水線并行執(zhí)行的方法,以進一步提高多芯片系統(tǒng)的性能。
Part 2
實際案例
除了傳統(tǒng)的計算流體動力學(xué)(CFD)應(yīng)用外,Groq AI推理加速器還可應(yīng)用于圖神經(jīng)網(wǎng)絡(luò)(GNN)等領(lǐng)域。GNN廣泛應(yīng)用于非歐幾里得數(shù)據(jù)的建模和預(yù)測,例如化學(xué)分子結(jié)構(gòu)、社交媒體推薦系統(tǒng)等。Groq芯片在處理這類非結(jié)構(gòu)化數(shù)據(jù)時表現(xiàn)出色,通過深度學(xué)習(xí)算法的加速,能夠大幅提升模型訓(xùn)練和推理的效率。軟件定義張量流多處理器提供了一種全新的硬件軟件結(jié)合的方法,通過重新審視硬件軟件合約,將更多的控制權(quán)交給了軟件,從而實現(xiàn)了更高效的計算性能。隨著人工智能和深度學(xué)習(xí)應(yīng)用的不斷發(fā)展,這種方法將有望在未來的計算領(lǐng)域發(fā)揮重要作用。
在實際應(yīng)用中,Groq AI推理加速器已經(jīng)在化學(xué)分子屬性預(yù)測、藥物發(fā)現(xiàn)等領(lǐng)域取得了顯著的成果。
借助其高性能和可擴展性,Groq芯片在處理大規(guī)模數(shù)據(jù)集時能夠?qū)崿F(xiàn)極大的加速,從而提升了科學(xué)研究和工程實踐的效率。
小結(jié)
總的來說,Groq AI推理加速器以其創(chuàng)新的設(shè)計思想和強大的性能,在處理融合HPC與AI工作負(fù)載的應(yīng)用中展現(xiàn)出了巨大的潛力。隨著對于高性能計算和人工智能技術(shù)的不斷發(fā)展,相信Groq芯片將在各個領(lǐng)域展現(xiàn)出更廣泛的應(yīng)用前景。
?
審核編輯:劉清
-
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249569 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134630 -
TSP
+關(guān)注
關(guān)注
1文章
25瀏覽量
17213 -
大模型
+關(guān)注
關(guān)注
2文章
3146瀏覽量
4073 -
Groq
+關(guān)注
關(guān)注
0文章
9瀏覽量
148
原文標(biāo)題:Groq AI推理加速器: 三年內(nèi)超越英偉達?
文章出處:【微信號:QCDZSJ,微信公眾號:汽車電子設(shè)計】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
大模型推理顯存和計算量估計方法研究
為什么無法在GPU上使用INT8 和 INT4量化模型獲得輸出?
Google推出第七代TPU芯片Ironwood

谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?
無法在GPU上運行ONNX模型的Benchmark_app怎么解決?
無法調(diào)用GPU插件推理的遠程張量API怎么解決?
AI變革正在推動終端側(cè)推理創(chuàng)新
阿里云開源推理大模型QwQ
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
FPGA和ASIC在大模型推理加速中的應(yīng)用

澎峰科技高性能大模型推理引擎PerfXLM解析

評論