天天躁日日躁欧美老妇,亚洲精品一区二区三区三,精品国产老女人乱码

電子發(fā)燒友網(wǎng)報(bào)道（文/周凱揚(yáng)）這年頭不少車企都開始自主研發(fā)自動(dòng)駕駛系統(tǒng)，連帶部署數(shù)據(jù)中心和超算已經(jīng)不是什么新鮮事了。除了特斯拉的DOJO和GPU超算以外，小鵬也在本月宣布與阿里云合作搭建了全國最大的自動(dòng)駕駛智算中心“扶搖”，算力可達(dá)600PFLOPS，看來新一輪的軍備競賽很快就會(huì)拉開帷幕。

對(duì)于自動(dòng)駕駛的開發(fā)來說，模型訓(xùn)練至關(guān)重要，尋常的服務(wù)器CPU基本無法滿足這個(gè)負(fù)載需求，所以不少車企都在借助英偉達(dá)的GPU開展訓(xùn)練，特斯拉也不例外。正巧今年的Hot Chips大會(huì)上安排了三場特斯拉的分享，都與特斯拉的AI與DOJO平臺(tái)有關(guān)，特斯拉的幾位自動(dòng)駕駛與AI部門負(fù)責(zé)人也都透露了他們在軟硬件上的一些進(jìn)展，就當(dāng)是作為下個(gè)月底特斯拉AI日的前瞻了。

DOJO超算

特斯拉的DOJO是他們自研自用的機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī)，采用了高度可擴(kuò)展而且完全分布式的系統(tǒng)，對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練負(fù)載進(jìn)行了專門的優(yōu)化，支持靈活適應(yīng)新的算法和應(yīng)用。根據(jù)特斯拉Autopilot硬件工程師Emil Talpes的說法，DOJO從設(shè)計(jì)之初就是為了大型系統(tǒng)設(shè)計(jì)的，而不是基于目前已有的商用小系統(tǒng)，再把規(guī)模做大。

DOJO的基礎(chǔ)組成部分，就是它的D1裸片。D1基于臺(tái)積電7nm工藝，單個(gè)裸片面積占645mm2。大家都知道蘋果M1 Ultra的die size相當(dāng)大，可哪怕是M1 Ultra的單個(gè)裸片大小也只有432mm2。D1采用了極度模塊化的設(shè)計(jì)，每個(gè)D1上共有354個(gè)DOJO處理單元，而且以2D陣列的形式物理和邏輯排布，單個(gè)D1在2GHz下的算力可達(dá)362TFLOPS。

由5x5排布的25個(gè)合格D1芯片（KGD）組成了一個(gè)DOJO訓(xùn)練模塊，整個(gè)模塊從電、熱、機(jī)械結(jié)構(gòu)上都是完全集成在一起的，模塊水平層面負(fù)責(zé)不同模塊之間的通信，而垂直層面則解決15kW的供電和散熱問題。

整個(gè)DOJO系統(tǒng)就是由DOJO訓(xùn)練模塊按2D網(wǎng)格結(jié)構(gòu)排列而成，網(wǎng)格邊緣配置了DOJO接口處理器（DIP）來提供共享內(nèi)存支持。而本屆Hot Chips上，特斯拉終于放出了這一處理器的詳細(xì)情報(bào)。

表面看上去，DIP像是一張PCIe卡，而它實(shí)際上使用的也確實(shí)是32GB/s的PCIe 4.0接口，配有32GB的HBM內(nèi)核，提供800GB/s的總內(nèi)存帶寬。但這PCIe 4.0的接口只是用于連接主機(jī)，真正發(fā)揮其性能的是特斯拉自研的TTP協(xié)議接口，提供900GB/s的超大帶寬給訓(xùn)練模塊。

訓(xùn)練模塊的邊緣配置了5個(gè)DIP卡，如此一來每邊都提供了160GB的共享DRAM，并通過這5張卡實(shí)現(xiàn)4.5TB/s的最大帶寬。要想擴(kuò)展網(wǎng)絡(luò)通信的話，比如SmartNIC或交換機(jī)，DIP也原生硬件支持標(biāo)準(zhǔn)以太網(wǎng)上的TTP通信，當(dāng)然了選擇這種通信方式的話帶寬也會(huì)降低至50GB/s，延遲也會(huì)增加。

整個(gè)系統(tǒng)即一個(gè)ExaPOD，由10個(gè)機(jī)柜，超過100萬片D1 CPU組成，算力可達(dá)1.1EFLOPS。而這樣的算力為特斯拉帶來了前所未有的訓(xùn)練性能，尤其是在自動(dòng)標(biāo)注上。

被機(jī)器取代的人工標(biāo)注員

雖然是特斯拉本身的商用車走的純視覺方案，但特斯拉路測車隊(duì)并不局限于提供視頻片段，畢竟去年就有人發(fā)現(xiàn)特斯拉的路測車輛頂著激光雷達(dá)在收集數(shù)據(jù)。在特斯拉路測車隊(duì)提交的片段中，除了視頻數(shù)據(jù)以外，還有IMU、GPS和測距儀等傳感器給出的數(shù)據(jù)。

這些數(shù)據(jù)經(jīng)過離線神經(jīng)網(wǎng)絡(luò)后，根據(jù)汽車行駛軌跡進(jìn)行靜態(tài)世界重構(gòu)，同時(shí)根據(jù)移動(dòng)物體和動(dòng)力學(xué)對(duì)物體進(jìn)行自動(dòng)標(biāo)注。特斯拉可以自行選擇需要進(jìn)行標(biāo)注的片段，比如查詢可視條件不佳下的最近車輛，系統(tǒng)會(huì)自動(dòng)返回這些片段然后進(jìn)行自動(dòng)標(biāo)注。再加上特斯拉的4D標(biāo)注，也就是在標(biāo)注一次后，同時(shí)標(biāo)注所有相機(jī)中的多幀畫面，極大地加快了標(biāo)注速度。根據(jù)特斯拉的說法，他們可以在一周之內(nèi)收集并自動(dòng)標(biāo)注1萬個(gè)片段。

這也就是特斯拉引入DOJO超算的原因，雖然標(biāo)注的工作量在不斷提升，但隨著機(jī)器學(xué)習(xí)硬件資源的增多，手動(dòng)標(biāo)注的占比越來越低，而自動(dòng)標(biāo)注開始占據(jù)主導(dǎo)，這或許才是為何特斯拉標(biāo)注團(tuán)隊(duì)開始裁員的真相。

仍在繼續(xù)擴(kuò)大規(guī)模的GPU超算

DOJO作為一個(gè)純CPU的超算系統(tǒng)，能做到以上已經(jīng)相當(dāng)厲害了，然而我們也不能忘記了特斯拉的另外兩臺(tái)GPU超算。早在2021年，特斯拉最新的一臺(tái)GPU超算規(guī)模就已經(jīng)達(dá)到了720個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)包含8塊英偉達(dá)A100 80GB GPU，整個(gè)系統(tǒng)的總GPU數(shù)達(dá)到了驚人的5760塊。

根據(jù)英偉達(dá)給出的數(shù)據(jù)，每個(gè)A100的算力有312TFLOPS，這也就意味著這臺(tái)最新GPU超算的算力已經(jīng)超越了E級(jí)，達(dá)到了可怕的1.8EFLOPS。不過這里的E級(jí)和我們平常說的E級(jí)超算還是有區(qū)別的，TOP500的那些超算跑分用的是LINPACK HPL，用到的是64位雙精度的格式，得出的實(shí)際應(yīng)用性能。而英偉達(dá)的A100的312TFLOPS是基于16位半精度來算的，而且是峰值性能。

可即便如此，這臺(tái)超算的實(shí)力也能在TOP500上名列前茅，根據(jù)特斯拉前AI主管Andrej Karpathy的說法，單論算力（峰值）的話，特斯拉這臺(tái)GPU超算確實(shí)能在去年六月的超算榜上名列第五。

而近期，特斯拉負(fù)責(zé)AI基礎(chǔ)設(shè)施和AI平臺(tái)團(tuán)隊(duì)的工程經(jīng)理Tim Zaman宣布，特斯拉已經(jīng)將這臺(tái)超算的規(guī)模再度升級(jí)，A100 80GB GPU的數(shù)量再度提升28%，達(dá)到了可怕的7360個(gè)。這價(jià)格十萬左右的GPU一下就添置近2000個(gè)，不得不承認(rèn)特斯拉確實(shí)愿意下血本。Tim Zaman表示哪怕單論GPU數(shù)量，這臺(tái)超算也能排名世界第七了。

至于峰值算力，這臺(tái)超算目前大概還是在第五的位置，這是因?yàn)榻衲甑那拔逑喑隽藘晌恍聲x選手，第一名的Frontier和第三名的LUMI都比這臺(tái)超算要強(qiáng)。而且特斯拉也并沒有提交LINPACK HPL的跑分結(jié)果，畢竟這套系統(tǒng)已經(jīng)投入使用，特斯拉作為商業(yè)公司，也沒必要去停止手頭的訓(xùn)練負(fù)載而追求跑分。DOJO的話，特斯拉并沒有公開升級(jí)其規(guī)模，上文中的1.1EFLOPS的峰值算力也是基于BF16的，所以也不適合拿來直接對(duì)比。

寫在最后

電動(dòng)車時(shí)代的來臨給不少造車新勢力降低了門檻，然而自動(dòng)駕駛技術(shù)的存在又將整個(gè)門檻拉高了一大截。從目前頭部企業(yè)的動(dòng)向來看，搭建智算中心，拿高密度的計(jì)算資源去跑訓(xùn)練或許是唯一的自研路線，這樣法規(guī)完善后，才能讓自動(dòng)駕駛汽車在全國范圍內(nèi)鋪開，自動(dòng)駕駛也不會(huì)局限于試點(diǎn)技術(shù)。

但是否摸清楚了技術(shù)路線，是否愿意砸這個(gè)錢，以及回報(bào)率高低才是他們邁出這一步關(guān)鍵，畢竟要讓一個(gè)車企去組建團(tuán)隊(duì)搞芯片設(shè)計(jì)，這個(gè)要求還是有些過分了，但僅僅是與云服務(wù)廠商合作打造這樣一個(gè)智算中心，同樣也得付出不小的成本。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

超級(jí)計(jì)算機(jī)

超級(jí)計(jì)算機(jī)

+關(guān)注

關(guān)注
2

文章
472

瀏覽量
42471
特斯拉

特斯拉

+關(guān)注

關(guān)注
66

文章
6378

瀏覽量
129120
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8502

瀏覽量
134592