在近日三星Foundry舉辦的SAFE論壇中,三星公布了一系列與IP、EDA和封裝廠商合作與創(chuàng)新的消息,比如云端芯片設計平臺的優(yōu)化,以及EDA工具在三星3nm至5nm制程和2.5D/3D封裝技術上的認證。而在論壇末尾,三星請到了半導體老將JimKeller分享其初創(chuàng)公司Tenstorrent在AI芯片設計的過程中,是如何實現(xiàn)模塊化設計的。
軟件2.0時代
JimKeller稱我們即將迎來軟件2.0時代,這也是他在特斯拉任職時,從特斯拉AI主管Andrei Karpathy那聽來的概念。人們使用大數(shù)據(jù)訓練網(wǎng)絡去做有用的事,而不再是編寫大量代碼,依照過去的思路來構建程序。其次,我們將看到更多的算法用于訓練網(wǎng)絡,比如對抗訓練等等,計算機將開始實時思考他們正在解決的問題。
自動駕駛就是一個很好的例子,過去典型的視覺代碼中,每個目標檢測背后都需要大量的代碼支撐。如今大數(shù)據(jù)集的存在給自動駕駛帶來了巨大的改變,你可以找到場景中所有的對象和路徑,甚至可以得出每個actor的意圖。
WormholeAI芯片Dieshot/Tenstorrent
在50至80年代左右,那時基本都是標量編程,直到后來向量和矩陣的出現(xiàn)。而如今我們正在構建的芯片很多是專門用來滿足人工智能計算的,這就要考慮到晶體管密度、代工制程和全新的人工智能算法等多項因素,這些考量也改變了人們設計芯片的思路。
芯片設計的變化
過去的芯片結構相當復雜,一個芯片中會有50到100多個IP集成在一起,包含了各種各樣的接口,需要一個上百人的大團隊才能把整個芯片組裝起來。這也造成一系列的問題,比如流片成本過高,多次測試才能獲得最終成品。
而過去的5到10年間,這種狀況開始發(fā)生變化,這也多虧了代工廠制程的提升和更高質(zhì)量的PDK。經(jīng)過硅驗證的IP為芯片設計帶來了便捷,無論是頂級的CAD公司、代工廠、初創(chuàng)企業(yè)還是內(nèi)部設計,都提供了可信任的IP,甚至先發(fā)制人在下一代IP上做好了準備,比如PCIe5.0、400G以太網(wǎng)和GDDR6等。JimKeller開玩笑稱,芯片設計如今就像是逛宜家一樣,買到所需的現(xiàn)成IP后自行組裝,加快了產(chǎn)品從設計到上市的進程。
模塊化設計/Tenstorrent
除了通過硅驗證的IP外,模塊化設計也成了當今芯片設計的主流方案。以Tenstorrent的設計流程為例,他們在硬件層面先從代工技術、CAD工具和設計庫來考慮如何打造這個芯片,然后將經(jīng)過驗證的IP和自己的IP統(tǒng)統(tǒng)放進SoC里。在軟件層面,先把PyTorch程序通過Tenstorrent的圖形編譯器運行,接著把它放在芯片上,由AI系統(tǒng)完成協(xié)調(diào),調(diào)用數(shù)學內(nèi)核與數(shù)據(jù)流來管理計算。這種清晰的設計流程意味著只需要更小的團隊,在流片前就可以完成硬件和軟件的仿真和測試,最終一次性通過測試。不過當前不少AI芯片都選用了更先進的制程,所以流片費用依舊昂貴。
AI芯片設計
Wormhole/Tenstorrent
與近些年的客戶端芯片和移動端芯片不同,AI計算是相當有規(guī)律的,所以往往是大量AI處理器協(xié)同工作,依照數(shù)據(jù)運行一個龐大的程序,所以在設計思路上必須做出改變。以Tenstorrent的第二代AI芯片Wormhole為例,該芯片只有六個分區(qū),AI處理器、GDDR6內(nèi)存、100G以太網(wǎng)、PCIe4.0、ARC CPU和一些系統(tǒng)邏輯。拿內(nèi)存這個物理分區(qū)來說,解決GDDR6 PHY、GDDR6內(nèi)存控制器和NOC接口的問題,然后再以同樣的流程完成余下的分區(qū),其芯片頂層其實就是NOC總線、時鐘和掃描鏈。這種思路讓芯片設計變得更容易管理,也能更快過渡到下一個制程節(jié)點。
AscalonRISC-V處理器/Tenstorrent
在Tenstorrent的AI芯片上,還用到了5個RISC-V核心,負責一部分的計算和協(xié)調(diào)工作。為了進一步擁抱開源生態(tài),Tenstorrent宣布將開源自己的RISC-V小核,同時也正在考慮開源其向量單元。JimKeller還提到了Tenstorrent正在研發(fā)的RISC-V處理器Ascalon,這是一個64位8取指6發(fā)射的高性能處理器,配備了先進的分支預測單元、兩個向量單元、兩個浮點單元和兩個讀取/存儲單元。
此外,由于AI工作負載往往需要龐大的計算量,單芯片和多芯片互聯(lián)的方案往往只能解決單個機架的問題,而多機架的互聯(lián)才是對AI芯片擴展性的考驗。Wormhole可以直接通過以太網(wǎng)實現(xiàn)相同模組的互聯(lián),在芯片到芯片、服務器到服務器和機架到機架之間實現(xiàn)相同的滿載帶寬。此外,Wormhole在設計時已經(jīng)內(nèi)置了交換機,所以超算一類的方案不再需要用到任何昂貴的交換機。當然了,傳統(tǒng)的數(shù)據(jù)中心在機架數(shù)量的配置要求上更靈活一些,這時采用頂部交換機的方案雖然不會影響芯片之間的帶寬,但確實會對服務器間與機架間的帶寬產(chǎn)生一定影響。
結語
根據(jù)JimKeller預測,未來五年的人工智能將在處理器、算法以及與芯片的協(xié)同工作上出現(xiàn)大量的創(chuàng)新。而AI芯片的設計不僅是把AI軟件和算法考慮在內(nèi),甚至后者也在反過來助力AI芯片的設計,比如我們已經(jīng)在設計工具中見到的布局與布線,未來AI構建的測試平臺也可能會幫助我們驗證代碼和區(qū)塊。AI芯片設計與AI設計芯片重合的場景可能離我們并不遠了。
-
AI芯片
+關注
關注
17文章
1983瀏覽量
35915
發(fā)布評論請先 登錄
成都匯陽投資關于芯片+AI 眼鏡核心公司
Nordic收購 Neuton.AI 關于產(chǎn)品技術的分析
首創(chuàng)開源架構,天璣AI開發(fā)套件讓端側AI模型接入得心應手
Nordic nRF54 系列芯片:開啟 AI 與物聯(lián)網(wǎng)新時代?
深圳發(fā)力機器人AI芯片攻關,萬年芯助推國產(chǎn)化替代

FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
AI芯片:科技變革的核心驅動力
AI在芯片上的應用:革新設計與功能
AI賦能邊緣網(wǎng)關:開啟智能時代的新藍海
AI編程在工業(yè)自動化設備上應用趨勢
Cadence如何應對AI芯片設計挑戰(zhàn)
蘋果利用AWS定制AI芯片提升服務
AI for Science:人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感
《AI for Science:人工智能驅動科學創(chuàng)新》第二章AI for Science的技術支撐學習心得
氟化液 | 液冷在AI芯片降溫的應用

評論