在人工智能的世界里,正在發(fā)生一場翻天覆地的變化,隨著 ChatGPT、Sora 的橫空出世,我們正在從深度學習時代轉(zhuǎn)向生成式人工智能時代,而在這場巨變中,芯片成為了科技巨頭們的必爭之地。
近日,硅谷一家初創(chuàng)企業(yè)以一款獨特的芯片產(chǎn)品攻占各大科技媒體板塊頭條。該公司正以一種與過往不同的方式推動這場人工智能革命。該公司名為 Groq,是一家人工智能解決方案公司。
據(jù)多家外媒報道,Groq 剛剛推出了 alpha 預覽版的推理引擎,該引擎使用其定制的語言處理單元 (LPU) 芯片架構(gòu)。這款推理引擎主打一個“快”字,每秒能輸出 500 個 token。相比之下,Chat GPT-3.5 每秒生成速度為 40 個 token。
“Groq 那疾如閃電的演示開始瘋傳,讓人們第一次意識到當前版本的 ChatGPT、Gemini 甚至是 Grok 看起來是多么笨拙和遲緩?!庇芯W(wǎng)友感嘆道。
“你必須嘗試的瘋狂技術(shù)!” HyperWriteAI CEO Matt Shumer 在 X 上極力稱贊 Groq:“以 500 tok/s 的速度運行 Mixtral 8x7B-32k,答案幾乎是即時的。開辟新的用例,并徹底改變現(xiàn)有用例的用戶體驗可能性?!?/p>
根據(jù) Shumer 發(fā)布在 X 上的演示,Groq 能夠瞬間給出包含數(shù)百個單詞的事實性答案,并提供邏輯鏈上的消息來源。
在另一段演示中,Groq 公司創(chuàng)始人兼 CEO Jonathon Ross 還邀請 CNN 主持人以實時對話的方式,跟跨越半個地球的 AI 聊天機器人來了場電視直播交流。雖然之前的 ChatGPT、Gemini 等其他聊天機器人也都帶來令人印象深刻的表現(xiàn),但 Groq 單憑速度一項就傾倒了眾生。正所謂“天下武功,唯快不破”,速度往往是決定技術(shù)成果能否實際應(yīng)用的關(guān)鍵。
在 Groq 的第一個公開基準測試中,Meta AI 的 Llama 2 70B 在 Groq LPU 推理引擎上運行,其輸出令牌吞吐量快了 18 倍,優(yōu)于所有其他基于云的推理提供商。
此外,根據(jù) Artificial Analysis 上周公布的第三方測試結(jié)果,Groq 每秒能夠生成 247 個 token,遠遠高于微軟的 18 個 token。也就是說如果將 ChatGPT 運行在 Groq 芯片之上,其速度將可提高 13 倍有余。
成本推算屢受質(zhì)疑
在傳統(tǒng) CPU 和 GPU 領(lǐng)域,更快的推理速度往往意味著要付出更高的成本。但從成立之初,Groq 就在強調(diào)公司的使命是將計算成本降至零。
在面對成本問題時,Ross 曾在兩年前接受《福布斯》采訪時表示:“Groq 決定做一些完全不同的事情,進行與傳統(tǒng)半導體行業(yè)智慧相反的創(chuàng)新。我們的使命是將計算成本降至零。我知道每個人都討厭高昂的計算成本。但是,如果你回顧一下計算的歷史就會發(fā)現(xiàn)計算成本避無可避。因此,當我們說‘將計算成本降至零’時,我們?nèi)匀灰跃哂懈偁幜Φ男袠I(yè)價格點來銷售我們的解決方案。也就是說,當我們提供數(shù)量級的性能改進(200 倍、600 倍、1000 倍)時,我們每美元所提供的性能是 200、600、1000 倍。所以,它正在接近免費?!?/p>
Groq 在官網(wǎng)上稱“保證擊敗同等上市模型的已發(fā)布提供商所發(fā)布的每百萬 token 的價格?!?/p>
但一些業(yè)內(nèi)人士以及開發(fā)者群體對于 Groq 卡的高昂價格和 CEO 主張的的“價格正在接近免費”的說辭提出了質(zhì)疑。原 Facebook 人工智能科學家、原阿里巴巴技術(shù)副總裁賈揚清就給 Grop 算了一筆賬,Groq 的成本到底如何,且看大佬的分析。
(圖片來自網(wǎng)絡(luò))
此外,也有 Groq 前員工在 Hacker News 上表示 Groq 理論上的推理成本是不切合實際的。
Groq 曾在發(fā)文中指出,他們使用了 576 個芯片來實現(xiàn)以 500 T/s 的速度運行 Mixtral 8x7B-32k 這樣的結(jié)果。但不得不注意的是,每個單獨的用戶都需要一個單獨的 KV 緩存,每個用戶將增加更多千兆字節(jié)。
我曾在 Groq 工作兩年,我預計他們實現(xiàn)這些性能數(shù)字的總費用將超過數(shù)百萬美元,他們發(fā)布的理論價格應(yīng)該比實際使用價格更低,因此這個結(jié)果是不切實際的。從每美元實際性能的角度來看,它們似乎不可行,但如果你將成本問題拋到九霄云外,那么它們確實挺酷的。
Groq 背后的秘密:架構(gòu)和編譯器
那么,Groq 又是如何做到如此之快呢?據(jù)悉,Groq 能做到如此之快背后的秘訣是架構(gòu)和編譯器的創(chuàng)新。
從零開始設(shè)計芯片架構(gòu)
在一次公開技術(shù)分享中,Groq CEO Ross 透露, Groq 芯片的架構(gòu)從頭開始設(shè)計的,其中包含數(shù)千個并行處理推理查詢的多線程處理器。每個芯片周圍都有一個獨特的、確定性的數(shù)據(jù)流架構(gòu),可最大限度地提高吞吐量,同時最大限度地減少延遲和功耗。
Groq 的 TSP 處理器繞過了造成時序不可預測性的緩存和控制邏輯。相反,結(jié)果按照軟件定義的序列直接從一個執(zhí)行單元流向下一個執(zhí)行單元,從輸入到輸出僅花費幾微秒。
對于大規(guī)模部署,GroqNode 服務(wù)器提供機架就緒的可擴展計算系統(tǒng)。GroqNode 是八個 GroqCard 加速器組,在 4U 服務(wù)器機箱中具有集成芯片到芯片連接以及雙服務(wù)器級 CPU 和高達 1 TB 的 DRAM。GroqNode 旨在實現(xiàn)大型深度學習模型的高性能和低延遲部署。
最后,對于數(shù)據(jù)中心部署,GroqRacks 提供了可擴展的加速器網(wǎng)絡(luò)。GroqRack 結(jié)合了 8 個 GroqNode 集的功能,具有多達 64 個互連芯片。其結(jié)果是一個確定性網(wǎng)絡(luò),單個機架的端到端延遲僅為 1.6 微秒,非常適合海量工作負載,并且旨在擴展到整個數(shù)據(jù)中心。
在面對面的基準測試中,與基于 GPU 的大型語言模型推理系統(tǒng)相比,Groq 系統(tǒng)的延遲時間提高了 100 倍,而成本僅為 1/5。當 GPU 性能受到批處理要求和內(nèi)存層次結(jié)構(gòu)的影響時,Groq 的架構(gòu)是從頭開始構(gòu)建的,以最大限度地減少單個查詢的延遲。
通過消除昂貴的數(shù)據(jù)移動,GroqChips 僅消耗幾瓦的功率,而不是像 GPU 那樣消耗數(shù)百瓦的功率。這使得能源效率提高了 10 倍,這對于控制爆炸式增長的 AI 計算成本至關(guān)重要。
值得注意的是,Groq 自稱“第一個語言處理單元 (LPU) 的創(chuàng)建者”。它的核心壁壘在于其獨特的 LPU 推理引擎,LPU 代表語言處理單元,這是一種新型的端到端處理單元系統(tǒng),可為具有順序組件的計算密集型應(yīng)用程序提供最快的推理,例如人工智能大語言模型。
Groq 一直在強調(diào),LPU 解決了大語言模型的兩個瓶頸:計算密度和內(nèi)存帶寬。就大語言模型而言,LPU 比 GPU 和 CPU 具有更大的計算能力。這減少了每個單詞的計算時間,從而可以更快地生成文本序列。此外,消除外部內(nèi)存瓶頸使 LPU 推理引擎能夠在大語言模型上提供比 GPU 好幾個數(shù)量級的性能。
根據(jù)推特上與 Groq 關(guān)系密切的投資人 k_zeroS 分享,LPU 的工作原理與 GPU 截然不同。它采用了時序指令集計算機(Temporal Instruction Set Computer)架構(gòu),這意味著它無需像使用高帶寬存儲器(HBM)的 GPU 那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。這一特點不僅有助于避免 HBM 短缺的問題,還能有效降低成本。
與傳統(tǒng) GPU、GPU、TPU 相比,Groq 的 LPU 也有其自身優(yōu)勢。
一直以來,使用現(xiàn)有架構(gòu)并連接許多 CPU 解決了訓練挑戰(zhàn)。人工智能推理要困難得多,因為它是實時的、對延遲敏感的,并且需要高性能和高效率。
隨著時間的推移,CPU 變得越來越大、越來越復雜,具有多個內(nèi)核、多個線程、片上網(wǎng)絡(luò)和控制電路。負責加速軟件性能和輸出的開發(fā)人員必須處理復雜的編程模型、安全問題以及由于處理抽象層而導致編譯器控制可見性的喪失。簡而言之,標準計算架構(gòu)具有不提供推理性能優(yōu)勢的硬件功能和元素。
GPU 架構(gòu)專為 DRAM 帶寬而設(shè)計,并構(gòu)建在多數(shù)據(jù)或多任務(wù)固定結(jié)構(gòu)處理引擎上。GPU 執(zhí)行大規(guī)模并行處理任務(wù),但存在內(nèi)存訪問延遲,而 ML 已經(jīng)突破了外部內(nèi)存帶寬的限制。
不同于英偉達 GPU 需要依賴高速數(shù)據(jù)傳輸,Groq 的 LPU 在其系統(tǒng)中沒有采用高帶寬存儲器(HBM)。它使用的是 SRAM,其速度比 GPU 所用的存儲器快約 20 倍。
鑒于 AI 的推理計算相較于模型訓練需要的數(shù)據(jù)量遠小,Groq 的 LPU 因此更節(jié)能。在執(zhí)行推理任務(wù)時,它從外部內(nèi)存讀取的數(shù)據(jù)更少,消耗的電量也低于英偉達的 GPU。
如果在 AI 處理場景中采用 Groq 的 LPU,可能就無需為英偉達 GPU 配置特殊的存儲解決方案。LPU 并不像 GPU 那樣對存儲速度有極高要求。Groq 公司宣稱,其技術(shù)能夠通過其強大的芯片和軟件,在 AI 任務(wù)中取代 GPU 的角色。
編譯器是重要基石
在編譯器部分,Groq 也做了大量創(chuàng)新。Jonathan Ross 堅持將編譯器作為公司技術(shù)能力的基石,因此設(shè)計團隊在做芯片的前六個月的時間里專注于設(shè)計和構(gòu)建編譯器。只有在團隊對編譯器感到滿意后,才開始研究芯片架構(gòu)。
與傳統(tǒng)編譯器不同,Groq 不依賴內(nèi)核或手動干預。通過編譯器和硬件的軟件優(yōu)先協(xié)同設(shè)計方法,Groq 構(gòu)建了編譯器,自動將模型直接映射到底層架構(gòu)。自動編譯過程允許編譯器優(yōu)化硬件上的模型執(zhí)行,而無需手動開發(fā)或調(diào)整內(nèi)核。
該編譯器還可以輕松添加資源和擴展。到目前為止,Groq 已經(jīng)使用剛剛描述的自動化流程編譯了 500 多個用于實驗?zāi)康牡?AI 模型。
當 Groq 將客戶的工作負載從 GPU 移植到 Groq LPU 時,第一步是刪除針對 GPU 的不可移植的供應(yīng)商特定內(nèi)核,然后刪除任何手動并行或內(nèi)存語義。當所有非必要的內(nèi)容都被剝離后,剩下的代碼會變得更加簡單和優(yōu)雅。
目前,在 Groq 網(wǎng)站上,用戶可以隨意測試不同的聊天機器人,并查看它們在 Groq LPU 上的運行速度。感興趣的朋友可以點擊嘗試:https://groq.com/
Groq 為何備受關(guān)注?
Groq/Grok 這個詞來自 Robert Heinlein 于 1961 年創(chuàng)作的科幻小說《異鄉(xiāng)異客》(Stranger in a Strange Land),本身的意思是“深刻而直觀地理解”。也許正是為了達成這樣的效果,眾多 AI 廠商才爭相用它來形容自己的 AI 產(chǎn)品。
那么,Groq 為何能在短期內(nèi)獲得如此大的關(guān)注?
有分析認為,之所以備受關(guān)注,原因主要有三點:其一,是 Groq 在架構(gòu)和編譯器上的創(chuàng)新(上文已經(jīng)詳解,不再贅述);其二,是谷歌芯片大佬光環(huán)加持;其三,是 Groq LPU 的出現(xiàn)有望使客戶擺脫硬件的鎖定。
2016 年底,Jonathon Ross 從谷歌離職創(chuàng)辦了 Groq,希望能為 AI 和 HPC 工作負載提供毫不妥協(xié)的低延遲和高性能。Ross 此前發(fā)明了驅(qū)動谷歌機器學習(ML)軟件的張量處理單元(TPU),這兩項技術(shù)為當時紅極一時的 AlphaGo 提供了重要的技術(shù)支撐。當時,谷歌的這支工程團隊在大約 14 個月內(nèi)就完成了第一代 TPU,因此被外界認為是一支技術(shù)實力超群的技術(shù)團隊。
就在那一年,這支技術(shù)實力超強的谷歌 TPU 團隊中的前 10 名成員中有 8 名成員跟隨 Ross 離開了谷歌。
2017 年,這家初創(chuàng)公司從風險投資家 Chamath Palihapitiya 那里獲得了 1030 萬美元的資金,公司最近還聘請了 Xilinx 銷售副總裁 Krishna Rangasayee 擔任首席運營官。
這個神秘的團隊在成立后的三年時間里幾乎從社交媒體中“隱身”,沒有過多關(guān)于公司的消息爆出。直到 2019 年 10 月,Groq 發(fā)布了一篇名為《世界,認識 Groq》的博客,向世界宣告了自己的存在。
此后的時間里,Groq 打造出了名為語言處理單元(LPU)的 AI 芯片,并向外界放出消息稱其速度已經(jīng)超越了英偉達的圖形處理單元(GPU)。換句話說,從早期結(jié)果來看,LPU 的確有希望擊敗已經(jīng)在 AI 模型領(lǐng)域成為行業(yè)標準的英偉達 GPU。
迄今為止,Groq 已從頂級風險投資公司獲得了約 3.62 億美元的資金。
據(jù) Ross 介紹,Groq 的軟件定義架構(gòu)提供了更大的靈活性,有望幫助客戶擺脫傳統(tǒng)硬件解決方案中將用戶鎖定在特定于供應(yīng)商的框架(例如 CUDA 和英偉達生態(tài)系統(tǒng))中的處境。
正如 Ross 所描述的,“我們的編譯器會自動執(zhí)行此操作。因此,您可以在其中放入一行 groq.it,然后將模型放在括號中,就這樣了。” 這種便攜式方法允許使用 PyTorch 等標準框架訓練的模型無需修改即可在 Groq 系統(tǒng)上高效運行。
通過避免專有接口,Groq 能夠與最新出現(xiàn)的機器學習創(chuàng)新兼容,而不需要模型轉(zhuǎn)換。因此,Groq 的平臺設(shè)計旨在防止當今困擾許多 GPU 部署的硬件鎖定問題。對于平衡新興需求與遺留約束的開發(fā)團隊來說,Groq 的靈活性提供了一條前進的道路。
盡管 Groq 贏得了一波廣泛關(guān)注,但其 AI 芯片是否真能與英偉達 GPU 或者谷歌 TPU 在計算性能和可擴展性上正面對抗仍然有待觀察。
英偉達的霸主地位, 短期內(nèi)誰都撼動不了
在近期 Groq 攻占各大科技媒體頭條板塊之時,老牌 AI 芯片霸主英偉達剛剛公布了去年第四季度財報。
據(jù)英偉達最新財報顯示,截至 2024 年 1 月 28 日,2024 財年第四季度收入達到 221 億美元,環(huán)比增長 22%,同比增長 265%,凈利潤為 122.85 億美元,同比增長 769%。值得一提的是,英偉達單季度收入甚至已高于 2021 年全年。這一增長主要得益于人工智能技術(shù)的快速發(fā)展,特別是在加速計算和生成式 AI 領(lǐng)域。
受此影響,該公司股價在美股盤后一度大漲 10%。英偉達 CEO 黃仁勛表示,加速計算和生成式人工智能已經(jīng)達到了引爆點,全球各個公司、行業(yè)和國家的需求都在飆升。
多年來,通過巧妙的收購、內(nèi)部硬件 / 軟件開發(fā)和戰(zhàn)略聯(lián)盟,以及利用 ChatGPT 發(fā)布所引發(fā)的生成式 AI 熱潮,英偉達以壓倒性優(yōu)勢牢牢占領(lǐng)了芯片霸主地位。無論是全行業(yè)的芯片短缺,還是其擬斥資 400 億美元收購芯片競爭對手 Arm 的失敗,都沒有對英偉達的驚人增長產(chǎn)生任何明顯影響。
“一個新的計算時代已經(jīng)開始。世界各地的公司正在從通用計算向加速計算和生成式人工智能轉(zhuǎn)型。”英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛在公司財報中表示。
每家芯片公司都把英偉達列為了一個巨大的目標,如今,Groq 似乎距離趕超英偉達這一目標更近了些。
審核編輯:劉清
-
人工智能
+關(guān)注
關(guān)注
1807文章
49035瀏覽量
249760 -
GPU芯片
+關(guān)注
關(guān)注
1文章
305瀏覽量
6208 -
聊天機器人
+關(guān)注
關(guān)注
0文章
348瀏覽量
12803 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1590瀏覽量
9127
原文標題:賈揚清質(zhì)疑 Groq CEO “其芯片價格接近免費”說法,前員工出來實錘:根本不切實際!
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
PCBA貼片價格“水很深”?七大核心要素拆解,幫你避開成本陷阱!
VirtualLab Fusion應(yīng)用:多反射系統(tǒng)的非序列建模
揚我國威 興旺中華—專訪YXC揚興科技蔡欽洪先生

集成電路制造工藝中的偽柵去除技術(shù)介紹

評論