...日韩一区二区三区无码,欧美大码一区二区在线

2022年，我們打賭說transformer會統(tǒng)治世界。

我們花了兩年時間打造Sohu，這是世界上第一個用于transformer（ChatGPT中的“T”）的專用芯片。

將transformer架構(gòu)燒到芯片中，我們無法運(yùn)行大多數(shù)傳統(tǒng)的AI模型：支持Instagram廣告的DLRM，像AlphaFold 2這樣的protein-folding模型，或者像Stable Diffusion 2這樣的舊圖像模型，也不能運(yùn)行CNN、RNN或LSTM。

但對于transformer來說，Sohu是有史以來最快的芯片。

借助Llama 70B每秒超過50萬個token的吞吐量，Sohu可以讓您構(gòu)建在GPU上無法實(shí)現(xiàn)的產(chǎn)品。Sohu甚至比英偉達(dá)（NVIDIA）的下一代Blackwell (B200)GPU更快、更便宜。

今天，每個最先進(jìn)的AI模型都是一個transformer：ChatGPT，Sora, Gemini，Stable Diffusion 3等等。如果transformer被SSM、RWKV或任何新架構(gòu)所取代，我們的芯片將毫無用處。

但如果我們是對的，Sohu將改變世界。這就是我們打這個賭的原因。

超級智能所需要的是規(guī)模擴(kuò)展

在五年內(nèi)，AI模型在大多數(shù)標(biāo)準(zhǔn)化測試中變得比人類更聰明。因?yàn)镸eta在訓(xùn)練Llama 400B （2024 SoTA，比大多數(shù)人都聰明）時使用的計(jì)算比OpenAI在GPT-2 （2019 SoTA）上使用的計(jì)算多5萬倍。

通過給AI模型提供更多的算力和更好的數(shù)據(jù)，它們會變得更聰明。規(guī)模擴(kuò)展是唯一一個幾十年來一直有效的技巧，每一家大型AI公司（谷歌、OpenAI /微軟、Anthropic /亞馬遜等）在未來幾年都將花費(fèi)超過1000億美元來保持?jǐn)U展。我們生活在有史以來最大的基礎(chǔ)設(shè)施建設(shè)中。

“我認(rèn)為（我們）可以擴(kuò)大到1000億美元的規(guī)模，……我們將在幾年內(nèi)實(shí)現(xiàn)這一目標(biāo)?！?/p>

——Dario Amodei, Anthropic CEO

擴(kuò)展下一個1000倍將非常昂貴。下一代數(shù)據(jù)中心的成本將超過一個小國的GDP。以目前的速度，我們的硬件、電網(wǎng)和錢包都跟不上。

我們不擔(dān)心數(shù)據(jù)耗盡。無論是通過合成數(shù)據(jù)、標(biāo)注管道，還是新的AI標(biāo)記數(shù)據(jù)源，我們認(rèn)為數(shù)據(jù)問題實(shí)際上是一個推理計(jì)算問題。Mark Zuckerberg、Dario Amodei和Demis Hassabis似乎也同意這一點(diǎn)。

GPU正遇到壁壘

小秘密是GPU并沒有變得更好，而是變得更大了。該芯片每面積的算力（TFLOPS）四年來幾乎持平。

從2022年到2025年，AI芯片并沒有變得更好，而是變得更大了。英偉達(dá)的B200、AMD的MI300、英特爾的Gaudi 3和亞馬遜的Trainium2將兩個芯片作為一張卡來“加倍”性能。2022-2025年間的所有GPU性能提升都使用了這個技巧，除了Etched。

隨著摩爾定律的放緩，提高性能的唯一方法就是專業(yè)化。

專用芯片不可避免

在transformer占領(lǐng)世界之前，許多公司制造了靈活的AI芯片和GPU來處理數(shù)百種不同的架構(gòu)。舉幾個例子：

NVIDIA’s GPUs

Google’s TPUs

Amazon’s Trainium

AMD’s accelerators

Graphcore’s IPUs

SambaNova SN Series

Cerebras’s CS-2

Groq’s GroqNode

Tenstorrent’s Grayskull

D-Matrix’s Corsair

Cambricon’s Siyuan

Intel’s Gaudi

目前還沒有人開發(fā)出專門針對算法的AI芯片（ASIC）。芯片項(xiàng)目耗資5000 -1億美元，需要數(shù)年時間才能投產(chǎn)。剛開始的時候，沒有市場。

突然之間，情況發(fā)生了變化：

前所未有的需求：在ChatGPT之前，transformer推斷市場約為5000萬美元，而現(xiàn)在是數(shù)十億美元。所有大型科技公司都使用transformer模型（OpenAI、b谷歌、亞馬遜、微軟、Facebook等）。

架構(gòu)融合：AI模型過去經(jīng)常發(fā)生變化。但自GPT-2以來，最先進(jìn)的模型架構(gòu)幾乎保持相同！OpenAI的GPT家族，谷歌的PaLM， Facebook的LLaMa，甚至特斯拉的FSD都是transformer。

當(dāng)模型的訓(xùn)練成本超過10億美元，推理成本超過100億美元時，專用芯片是不可避免的。在這個規(guī)模上，1%的改進(jìn)將證明一個5000 -1億美元的定制芯片項(xiàng)目是合理的。

實(shí)際上，ASIC比GPU要快幾個數(shù)量級。2014年，當(dāng)比特幣進(jìn)入市場時，扔掉GPU比用它們挖比特幣更便宜。

隨著數(shù)十億美元的投入，AI也將面臨同樣的命運(yùn)。

transformer驚人地相似：像SwiGLU激活和RoPE編碼這樣的調(diào)整無處不在：LLM、嵌入模型、圖像繪制和視頻生成。

雖然GPT-2和Llama-3是最先進(jìn)的（SoTA）型號，但它們的架構(gòu)幾乎相同。唯一的主要區(qū)別是規(guī)模。

transformer有一條巨大的護(hù)城河

我們相信硬件抽獎：獲勝的機(jī)型是那些在硬件上運(yùn)行最快、最便宜的機(jī)型。transformer功能強(qiáng)大、有用、利潤豐厚，足以在替代產(chǎn)品出現(xiàn)之前主導(dǎo)每一個主要的AI計(jì)算市場：

transformer為每一個大型AI產(chǎn)品提供動力：從代理到搜索再到聊天。為了優(yōu)化用于transformer的GPU，AI實(shí)驗(yàn)室已經(jīng)投入了數(shù)億美元的研發(fā)資金。當(dāng)前和下一代最先進(jìn)的型號是transformer。

未來幾年，隨著模型規(guī)模從10億美元擴(kuò)大到100億美元，再到1000億美元的訓(xùn)練費(fèi)用，測試新架構(gòu)的風(fēng)險(xiǎn)也會飆升。與其重新測試縮放定律和性能，不如把時間花在構(gòu)建transformer的特性上，比如multi-token預(yù)測。

今天的軟件堆棧針對transformer進(jìn)行了優(yōu)化。每個流行的庫（TensorRT-LLM, vLLM， Huggingface TGI等）都有專門的內(nèi)核用于在GPU上運(yùn)行transformer模型。在transformer之上構(gòu)建的許多特性在替代方案中不容易得到支持（例如推測解碼、樹搜索）。

未來的硬件堆棧將針對transformer進(jìn)行優(yōu)化。NVIDIA的GB200對transformer（TransformerEngine）有特殊的支持。像Sohu這樣的ASIC進(jìn)入這個市場標(biāo)志著不可能再回頭了。transformer殺手需要在GPU上運(yùn)行的速度比在Sohu上運(yùn)行的速度快。如果發(fā)生這種情況，我們也將為此構(gòu)建一個ASIC ！

遇見Sohu

Sohu是世界上第一個transformer專用集成電路。一臺8xSohu服務(wù)器替換160個H100 GPU。

通過專業(yè)化，Sohu獲得了前所未有的業(yè)績。一臺8xSohu服務(wù)器每秒可以處理超過500,000個Llama 70Btoken。

基準(zhǔn)是在FP8精度下的lama- 370B：無稀疏性，8倍模型并行，2048輸入/128輸出長度。

用TensorRT-LLM 0.10.08（最新版本）計(jì)算8xH100，估計(jì)8xGB200的數(shù)字。

Sohu只支持transformer推理，無論是Llama還是Stable Diffusion3。Sohu支持目前所有的模型（谷歌，Meta, Microsoft, OpenAI，Anthropic等），并可以處理對未來模型的調(diào)整。

由于Sohu只能運(yùn)行一種算法，絕大多數(shù)控制流邏輯可以被移除，從而允許它擁有更多的數(shù)學(xué)塊。因此，Sohu擁有超過90%的FLOPS利用率（相比之下，使用TRT-LLM的GPU7只有30%）。

怎么能在芯片上容納比GPU更多的FLOPS呢？

NVIDIA H200具有989 TFLOPS的FP16/BF16無稀疏性計(jì)算。這是最先進(jìn)的（甚至超過了谷歌的新Trillium芯片），而在2025年推出的GB200只多了25%的計(jì)算能力（每芯片1,250 TFLOPS）。

由于GPU的絕大部分區(qū)域都致力于可編程性，專門研究transformer可以讓您適應(yīng)更多的計(jì)算。你可以從第一原理中證明這一點(diǎn)：

構(gòu)建單個FP16/BF16/FP8乘加電路需要10,000個晶體管，這是所有矩陣數(shù)學(xué)的構(gòu)建模塊。H100 SXM有528個張量核，每個核有4*8*16個FMA電路。乘法告訴我們H100有27億個晶體管專用于張量核。

但是H100有800億個晶體管!這意味著H100 GPU上只有3.3%的晶體管用于矩陣乘法!

這是英偉達(dá)和其他靈活A(yù)I芯片深思熟慮的設(shè)計(jì)決策。如果想支持各種模型（CNN、LSTM、SSM等），你不能做得比這更好了。

通過只運(yùn)行transformer，我們可以在芯片上容納更多的FLOPS，而不會降低精度或稀疏性。

推理的瓶頸不應(yīng)該是在內(nèi)存帶寬上，而不是在計(jì)算上嗎？

事實(shí)上，對于像Llama-3這樣的現(xiàn)代模型來說，答案是no！

讓我們使用NVIDIA和AMD的標(biāo)準(zhǔn)基準(zhǔn)：2048個輸入token和128個輸出token。大多數(shù)AI產(chǎn)品的提示都比完成時間長得多（甚至一個新的Claude聊天在系統(tǒng)提示中也有1000多個token）。

在GPU和Sohu上，推理是批量運(yùn)行的。每個批處理一次加載所有模型權(quán)重，并在批處理中的每個token上重用它們。一般來說，LLM的輸入是計(jì)算綁定的，而LLM的輸出是內(nèi)存綁定的。當(dāng)我們將輸入和輸出token與連續(xù)批處理結(jié)合在一起時，工作負(fù)載變得非常計(jì)算受限。

下面是LLM的連續(xù)批處理示例。這里我們正在運(yùn)行具有四個輸入token和四個輸出token的序列；每種顏色都是不同的序列。

我們可以擴(kuò)展同樣的技巧來運(yùn)行Llama-3-70B，使用2048個輸入token和128個輸出token。每個批處理包含一個序列的2048個輸入token，以及127個不同序列的127個輸出token。

如果我們這樣做，每批將需要大約(2048 + 127)*70B params *2字節(jié)/ param = 304 TFLOPs，而只需要加載70B params *2字節(jié)/ param = 140 GB的模型權(quán)重和大約127 *64*8 *128*(2048 + 127)*2*2 = 72GB的KV緩存權(quán)重。這遠(yuǎn)遠(yuǎn)超過了內(nèi)存帶寬：一臺H200需要6.8 PFLOPS的計(jì)算才能最大限度地利用其內(nèi)存帶寬。這是在100%利用率下，如果利用率是30%，你需要3倍以上計(jì)算負(fù)載。

由于Sohu有如此多的計(jì)算和非常高的利用率，我們可以運(yùn)行巨大的吞吐量，而不會出現(xiàn)內(nèi)存帶寬的瓶頸。

在現(xiàn)實(shí)世界中，批處理要大得多，輸入長度變化很大，請求以泊松分布到達(dá)。這種技術(shù)在這些情況下效果更好，但我們在這個例子中使用2048/128基準(zhǔn)，因?yàn)镹VIDIA和AMD使用它。

軟件是如何工作的？

在GPU和TPU上，軟件是一場噩夢。處理任意CUDA和PyTorch代碼需要一個非常復(fù)雜的編譯器。第三方AI芯片（AMD、英特爾、AWS等）在軟件上總共花費(fèi)了數(shù)十億美元，但收效甚微。

但是Sohu只運(yùn)行transformer，我們只需要為transformer編寫軟件！

大多數(shù)運(yùn)行開源或內(nèi)部模型的公司使用特定于transformer的推理庫，如TensorRT-LLM、vLLM或HuggingFace的TGI。這些框架非常嚴(yán)格——雖然可以調(diào)整模型超參數(shù)，但并不真正支持更改底層模型代碼。但這很好——因?yàn)樗械膖ransformer模型都是如此相似（甚至是文本/圖像/視頻的），調(diào)整超參數(shù)是你真正需要的。

雖然這支持95%的AI公司，但最大的AI實(shí)驗(yàn)室都是定制的。他們有工程師團(tuán)隊(duì)手動調(diào)整GPU內(nèi)核，以擠出更多的利用率，逆向工程，比如哪個寄存器對張量核心的延遲最低。

有了Etched，你再也不需要逆向工程了——我們的軟件，從驅(qū)動程序到內(nèi)核再到服務(wù)棧，都將是開源的。如果想實(shí)現(xiàn)自定義的transformer層，您的內(nèi)核向?qū)Э梢宰杂傻剡@樣做。

Etched將是第一個

如果這個賭注現(xiàn)在看起來很瘋狂，想象一下在2022年實(shí)現(xiàn)它。剛開始的時候，ChatGPT還不存在！圖像和視頻生成模型是U-Nets，自動駕駛汽車是由CNN驅(qū)動的，transformer架構(gòu)遠(yuǎn)未普及。

幸運(yùn)的是，形勢已經(jīng)朝著有利于我們的方向轉(zhuǎn)變。從語言到視覺，每個領(lǐng)域的頂級模型現(xiàn)在都是transformer。這種融合不僅證明了這一押注是正確的，而且也使Sohu成為這十年來最重要的硬件項(xiàng)目。

我們正在進(jìn)行歷史上最快的芯片發(fā)布之一：

頂尖的AI研究人員和硬件工程師離開了重大的AI芯片項(xiàng)目，加入我們;

我們已經(jīng)直接與臺積電合作開發(fā)他們的4nm工藝。我們已經(jīng)從頂級供應(yīng)商那里獲得了足夠的HBM和服務(wù)器供應(yīng)，可以快速啟動第一年的生產(chǎn);

我們的早期客戶已經(jīng)預(yù)訂了數(shù)千萬美元的硬件.

如果我們是對的，Sohu將改變世界

如果AI模型一夜之間變得快20倍、便宜20倍，會發(fā)生什么？

今天，Gemini要花60秒回答一個關(guān)于視頻的問題。編碼代理的成本高于軟件工程師，完成任務(wù)需要花費(fèi)數(shù)小時。視頻模型每秒生成一幀，甚至當(dāng)ChatGPT注冊用戶達(dá)到1000萬（僅占世界的0.15%）時，OpenAI的GPU容量也耗盡了。

我們并沒有在解決這個問題的軌道上——即使我們繼續(xù)讓GPU變得更大，以每兩年2.5倍的速度，也需要十年的時間才能實(shí)現(xiàn)實(shí)時視頻生成。

但有了Sohu，這將是即時的。當(dāng)實(shí)時視頻、電話、代理和搜索最終正常工作時，會發(fā)生什么？

很快，你就會知道了。

原文鏈接：

https://www.etched.com/announcing-etched

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

芯片

芯片

+關(guān)注

關(guān)注
460

文章
52520

瀏覽量
441057
asic

asic

+關(guān)注

關(guān)注
34

文章
1247

瀏覽量
122414
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
151

瀏覽量
6522

原文標(biāo)題：揭秘transformer專用ASIC芯片：Sohu!

文章出處：【微信號：SSDFans，微信公眾號：SSDFans】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

transformer專用ASIC芯片Sohu說明

評論