一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

1000TOPS背后的“大算力芯片”

半導(dǎo)體產(chǎn)業(yè)縱橫 ? 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 作者:半導(dǎo)體產(chǎn)業(yè)縱橫 ? 2022-12-12 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人類社會已經(jīng)進入算力時代。

據(jù)中國信息通信研究院測算,截至2021年底,中國算力核心產(chǎn)業(yè)規(guī)模超過1.5萬億元,關(guān)聯(lián)產(chǎn)業(yè)規(guī)模超過8萬億元。其中,云計算市場規(guī)模超過3000億元,互聯(lián)網(wǎng)數(shù)據(jù)中心(服務(wù)器)市場規(guī)模超過1500億元,AI 核心產(chǎn)業(yè)規(guī)模超過4000億元。

國內(nèi)算力產(chǎn)業(yè)近五年平均增速超過30%,算力規(guī)模超過150EFlops(每秒15000京次浮點運算次數(shù)),排名全球第二,第一是美國。

數(shù)字經(jīng)濟時代,算力高低成為綜合國力強弱的重要指標(biāo)之一,高算力芯片技術(shù)是國家核心競爭力的重要體現(xiàn)。

眾多場景已經(jīng)進入超越1000TOPS(Tera Operations Per Second, 處理器每秒可以進行一萬億次操作(1012))算力的時代。

01

超越1000 TOPS的高算力

數(shù)據(jù)中心和超算

一個典型的超越1000TOPS算力的場景就是數(shù)據(jù)中心和超算。先來看數(shù)據(jù)中心對于算力的需求,工信部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》明確了算力內(nèi)涵并引入測算指標(biāo)FLOPS,對數(shù)據(jù)中心發(fā)展質(zhì)量進行評價,指出到2023年底,總算力規(guī)模將超過200 EFLOPS,高性能算力占比將達到10%,到2025年,總算力規(guī)模將超過300 EFLOPS。

而超算中心也早已邁入E級算力(百億億次運算每秒)時代,并正在向Z(千E)級算力發(fā)展。E(Exascale)級計算也就是百萬兆級的計算,是目前全球頂尖超算系統(tǒng)新的追逐目標(biāo)。用一個不精確的說法來解釋百萬兆級計算,一個百萬兆級計算機一瞬間進行的計算,相當(dāng)于地球上所有人每天每秒都不停地計算四年。

2022年5月登頂世界超算500強榜單的美國國防部橡樹嶺國家實驗室Frontier超算中心,采用AMD公司MI250X高算力芯片(可提供383 TOPS算力),達到了1.1 EOPS雙精度浮點算力。

人工智能

不斷發(fā)展的人工智能也對芯片的算力提出更高的要求。人工智能的應(yīng)用對于算力最大的挑戰(zhàn)依然來自于核心數(shù)據(jù)中心的模型訓(xùn)練,近年來,算法模型的復(fù)雜度呈現(xiàn)指數(shù)級增長趨勢,正在不斷逼近算力的上限。

以2020年發(fā)布的GPT3預(yù)訓(xùn)練語言模型為例,其擁有1750億個參數(shù),使用1000億個詞匯的語料庫訓(xùn)練,采用1000塊當(dāng)時最先進的英偉達A100 GPU(圖形處理器,624 TOPS)訓(xùn)練仍需要1個月。

距離GPT-3問世不到一年,更大更復(fù)雜的語言模型,即超過一萬億參數(shù)的語言模型Switch Transformer已問世。目前,人工智能所需算力每兩個月即翻一倍,承載AI的新型算力基礎(chǔ)設(shè)施的供給水平,將直接影響AI創(chuàng)新迭代及產(chǎn)業(yè)AI應(yīng)用落地。

AI模型跑步進入萬億級時代,深度學(xué)習(xí)發(fā)展逐步進入大模型、大數(shù)據(jù)階段,模型參數(shù)和數(shù)據(jù)量呈爆發(fā)式增長,引發(fā)的算力需求平均每2年超過算力實際增長速度的375倍。

自動駕駛

自動駕駛?cè)蝿?wù)需要高于1000 TOPS的高算力芯片。

自動駕駛的競爭實際上是算力的競爭。汽車從L1、L2向L3、L4、L5不斷推進,從某種意義上看,就是算力的競賽,每往上進階一級就意味著對算力的需求更高。高階自動駕駛對算力需求呈指數(shù)級上升。

2014—2016年特斯拉ModelS的算力為0.256TOPS,2017年蔚來ES8的算力是2.5TOPS,2019年特斯拉Model3算力為144TOPS,2021年智己L71070TOPS,2022年蔚來ET7是1016 TOPS。

綜合考慮集成電路技術(shù)發(fā)展下的芯片算力現(xiàn)狀和未來人工智能、數(shù)據(jù)中心、自動駕駛等領(lǐng)域的發(fā)展趨勢,未來高算力芯片需要不低于1000 TOPS的算力水平。

市場對于算力需求的增長遠遠超過摩爾定律的演進速度。OpenAI的模型顯示,2010年以來業(yè)內(nèi)最復(fù)雜的AI模型算力需求漲了100億倍。目前解決算力的方式80%依靠并行計算和增加投資,10%依靠AI算法進步,10%依靠芯片單位算力進步。

02

1000TOPS背后的“大算力芯片”

單個芯片對于算力的追求是永無止盡的。目前來看,業(yè)內(nèi)人士認(rèn)為“單芯片算力達到100TOPS”就能稱之為“大算力芯片”。

目前能夠推出單芯片超越100TOPS的企業(yè)并不多,包括:AMD公司MI250X高算力芯片(可提供383 TOPS算力)、Mobileye EyeQ Ultra單顆芯片(算力可達176TOPS)等。

國內(nèi)方面,寒武紀(jì)2021年也接連發(fā)布2款云端AI芯片,分別是思元290和思元370。思元370是寒武紀(jì)首款采用chiplet(芯粒)技術(shù)的AI芯片,集成了390億個晶體管,最大算力高達256TOPS(INT8),是寒武紀(jì)第二代產(chǎn)品思元270算力的2倍。

此外,燧原科技、地平線、瀚博半導(dǎo)體、芯馳科技、黑芝麻智能等在2021年也都推出了大算力AI芯片,其中,燧原科技發(fā)布的“邃思2.0”,整數(shù)精度INT8算力高達320TOPS。

4e74659c-7950-11ed-8abf-dac502259ad0.png

目前推出算力超越1000TOPS的SoC,唯有英偉達、高通,并且兩家企業(yè)推出的高算力芯片主要用于自動駕駛領(lǐng)域。

首先來看英偉達,在2021年4月,英偉達就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達直接推出芯片Thor,算力是Atlan的兩倍,達到2000TOPS,并且在2025年投產(chǎn),直接跳過了1000TOPS的DRIVE Atlan芯片。

其次是高通,今年同樣推出集成式汽車超算SoC———Snapdragon Ride Flex,包括Mid、High、Premium三個級別。最高級的Ride Flex Premium SoC再加上AI加速器,其綜合AI算力能夠達到2000TOPS。

4ebed348-7950-11ed-8abf-dac502259ad0.png

超強算力的背后,是利用SoC的片上整合。異構(gòu)計算通過多種計算單元混合協(xié)作模式提升計算并行度和效率,在移動互聯(lián)網(wǎng)、人工智能、云計算等各類典型應(yīng)用中占比顯著提高,并主要通過芯片內(nèi)異構(gòu)、節(jié)點內(nèi)異構(gòu)兩種模式實現(xiàn)性能、功耗與成本間的最佳均衡。芯片內(nèi)異構(gòu)典型代表為 SoC 芯片,以英偉達的Thor為例,Thor之所以能實現(xiàn)如此高算力,主要得益于其整體架構(gòu)中的Hopper GPU、Next-Gen GPU Ada Lovelace和Grace CPU。

03

高算力芯片如何進化

實際上,芯片的算力由數(shù)據(jù)互連、單位晶體管提供的算力(通常由架構(gòu)決定)、晶體管密度和芯片面積共同決定。因此想要實現(xiàn)算力的提高,需要從這幾個方面入手。

算力進化的路徑一:芯片系統(tǒng)架構(gòu)的挑戰(zhàn)

200TOPS以上的芯片對于訪存能力的要求非常高,需要支持更高的帶寬,這帶來系統(tǒng)架構(gòu)設(shè)計復(fù)雜度的大幅度提升。

當(dāng)前芯片主要采用馮·諾依曼架構(gòu),存儲和計算物理上是分離的。有數(shù)據(jù)顯示,過去二十年,處理器性能以每年大約55%的速度提升,內(nèi)存性能的提升速度每年只有10%左右。結(jié)果長期下來,不均衡的發(fā)展速度造成了當(dāng)前的存儲速度嚴(yán)重滯后于處理器的計算速度,出現(xiàn)了“存儲墻”問題,最終導(dǎo)致芯片性能難以跟上需求。

英偉達提出的“黃氏定律”,預(yù)測GPU將推動AI性能實現(xiàn)逐年翻倍,采用新技術(shù)協(xié)調(diào)并控制通過設(shè)備的信息流,最大限度減少數(shù)據(jù)傳輸,來避免“存儲墻”問題。

英偉達在GPGPU上迭代形成集成了張量核心(Tensor Core)的領(lǐng)域定制架構(gòu),2022年最新發(fā)布的H100 GPU基于4 nm工藝,可以提供2000 TFLOPS(萬億次浮點運算每秒)的算力。

算力進化的路徑二:先進工藝平臺的挑戰(zhàn)

集成電路尺寸的微縮能夠帶來單位面積算力指數(shù)的提升。在相同架構(gòu)的不同工藝下,隨著工藝節(jié)點的縮小,英偉達GPU單位面積芯片算力持續(xù)提升。近年來,英偉達、AMD、蘋果的高算力芯片均采用7、5 nm先進制程實現(xiàn)。本質(zhì)上,算力提升的核心是晶體管數(shù)量的增加。

作為 Intel 的創(chuàng)始人之一,Gordon Moore 在最初的模型中就指明,無論是從技術(shù)的角度還是成本的角度來看,單一芯片上的晶體管數(shù)量不能無限增加;因此,業(yè)內(nèi)在致力于提升晶體管密度的同時,也在嘗試其他軟硬件方式來提高芯片運行效率,如:異構(gòu)計算、分布式運算等等。

算力進化的路徑三:大尺寸芯片工程的挑戰(zhàn)

大算力芯片的尺寸非常大,其在封裝、電源和熱管理、成本控制、良率等方面都存在嚴(yán)峻的挑戰(zhàn)。芯片的價格當(dāng)然是面積越大越貴,芯片面積擴大一倍,價格高3到5倍甚至更高。

根據(jù)近40年來芯片面積的變化趨勢,可以看出隨著高算力芯片的不斷發(fā)展,面積也持續(xù)增大,當(dāng)前已接近單片集成的面積極限。既然單顆芯片的面積不能無限增加,將一顆芯片拆解為多顆芯片,分開制造再封裝到一起是一個很自然的想法。

異構(gòu)集成+高速互聯(lián)塑造了 Chiplet 這一芯片屆的里程碑。如果使用芯粒(Chiplet)設(shè)計技術(shù),通過把不同功能芯片模塊化,利用新的設(shè)計、互連、封裝等技術(shù),在一顆芯片產(chǎn)品中使用來自不同技術(shù)、不同制程甚至不同工廠的芯片,解決了芯片制造層面的效率問題。

04

結(jié)語

宏觀總算力 = 性能 x 數(shù)量(規(guī)模) x 利用率。

算力是由性能、規(guī)模、利用率三部分共同組成的,相輔相成,缺一不可:有的算力芯片,可能可以做到性能狂飆,但較少考慮芯片的通用性易用性,然后芯片銷量不高落地規(guī)模小,那就無法做到宏觀算力的真正提升。

有的算力提升方案,重在規(guī)模投入,攤大餅有一定作用,但不是解決未來算力需求數(shù)量級提升的根本。

現(xiàn)階段大國博弈加劇全球產(chǎn)業(yè)鏈、供應(yīng)鏈重構(gòu),同時中國集成電路先進工藝的開發(fā)受到制約,單純依靠先進制程等技術(shù)的單點突破成本高、周期長。

采用成熟制程和先進集成,結(jié)合CGRA和存算一體等國內(nèi)領(lǐng)先的新型架構(gòu),在芯粒技術(shù)基礎(chǔ)上實現(xiàn)晶圓級的高算力芯片是一條可行的突破路徑,該路徑能夠利用現(xiàn)有優(yōu)勢技術(shù),在更低的成本投入下,更快地提升芯片算力。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    459

    文章

    52464

    瀏覽量

    440130
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48987

    瀏覽量

    249014
  • 算力
    +關(guān)注

    關(guān)注

    2

    文章

    1189

    瀏覽量

    15623

原文標(biāo)題:1000TOPS算力時代來臨

文章出處:【微信號:ICViews,微信公眾號:半導(dǎo)體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    控一體新物種發(fā)布!百TOPS,地瓜為具身機器人量產(chǎn)“夯地基”

    ? ? 電子發(fā)燒友網(wǎng)(文/莫婷婷)近期,地瓜機器人正式發(fā)布了RDK S100控一體化機器人開發(fā)套件,采用大小腦超級異構(gòu),提供80TOPS和128TOPS
    的頭像 發(fā)表于 06-18 09:09 ?8514次閱讀
    <b class='flag-5'>算</b>控一體新物種發(fā)布!百<b class='flag-5'>TOPS</b><b class='flag-5'>算</b><b class='flag-5'>力</b>,地瓜為具身機器人量產(chǎn)“夯地基”

    新品 | 26+6TOPS強悍!飛凌嵌入式FCU3501嵌入式控制單元發(fā)布

    飛凌嵌入式FCU3501嵌入式控制單元基于瑞芯微RK3588處理器開發(fā)設(shè)計,4xCortex-A76+4xCortex-A55架構(gòu),A76主頻高達2.4GHz,A55核主頻高達1.8GHz,支持8K編解碼,NPU6TOPS,
    的頭像 發(fā)表于 05-15 11:57 ?1702次閱讀
    新品 | 26+6<b class='flag-5'>TOPS</b>強悍<b class='flag-5'>算</b><b class='flag-5'>力</b>!飛凌嵌入式FCU3501嵌入式控制單元發(fā)布

    6TOPSNPU加持!RK3588如何重塑8K顯示的邊緣計算新邊界

    與復(fù)雜運算。明遠智睿推出的RK3588芯片,以6TOPS的NPU為核心,為這一難題提供了突破性的解決方案。 從硬件架構(gòu)來看,RK3588的NPU采用了先進的神經(jīng)網(wǎng)絡(luò)處理器設(shè)計,支持
    發(fā)表于 04-18 15:32

    芯片的生態(tài)突圍與革命

    電子發(fā)燒友網(wǎng)報道(文 / 李彎彎)大芯片,即具備強大計算能力的集成電路芯片,主要應(yīng)用于高性能計算(HPC)、人工智能(AI)、數(shù)據(jù)中心、自動駕駛等需要海量數(shù)據(jù)并行計算的場景。隨著
    的頭像 發(fā)表于 04-13 00:02 ?1687次閱讀

    157 TOPS !AIO-OrinNX 主板助力邊緣 AI 應(yīng)用

    Firefly最新推出NVIDlAJetsonOrin主板,搭載JetsonOrin系列核心模組,最高可達157TOPS,支持大模型私有化部署,為邊緣AI應(yīng)用的開發(fā)與部署提供強勁的
    的頭像 發(fā)表于 04-02 16:33 ?1283次閱讀
    157 <b class='flag-5'>TOPS</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>!AIO-OrinNX 主板助力邊緣 AI 應(yīng)用

    DeepSeek對芯片的影響

    DeepSeek模型,尤其是其基于MOE(混合專家)架構(gòu)的DeepSeek-V3,對芯片的要求產(chǎn)生了深遠影響。為了更好地理解這一影響,我們可以從幾個方面進行分析。一.MOE架構(gòu)對
    的頭像 發(fā)表于 02-07 10:02 ?1108次閱讀
    DeepSeek對<b class='flag-5'>芯片</b><b class='flag-5'>算</b><b class='flag-5'>力</b>的影響

    中心的如何衡量?

    作為當(dāng)下科技發(fā)展的重要基礎(chǔ)設(shè)施,其的衡量關(guān)乎其能否高效支撐人工智能、大數(shù)據(jù)分析等智能應(yīng)用的運行。以下是對智中心算衡量的詳細闡述:一、
    的頭像 發(fā)表于 01-16 14:03 ?2381次閱讀
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    杰和課堂|帶你認(rèn)識

    主板內(nèi)置34TOPS的NPU。那么究竟什么是?一、
    的頭像 發(fā)表于 12-06 10:24 ?1025次閱讀
    杰和課堂|帶你認(rèn)識<b class='flag-5'>算</b><b class='flag-5'>力</b>

    【NVIDIA生態(tài)】具有100 TOPS強勁的AIBOX!

    JetsonOrin模組的高AI主機:AIBOX-OrinNano和AIBOX-OrinNX英偉達系列AIBOX該系列可提供40或100TOPS的AI計算能力、大容
    的頭像 發(fā)表于 12-05 03:00 ?1648次閱讀
    【NVIDIA生態(tài)】具有100 <b class='flag-5'>TOPS</b>強勁<b class='flag-5'>算</b><b class='flag-5'>力</b>的AIBOX!

    AI芯片供電電源測試?yán)?費思低壓大電流系列電子負(fù)載

    AI芯片作為驅(qū)動復(fù)雜計算任務(wù)的核心引擎,其性能與穩(wěn)定性成為了決定應(yīng)用成敗的關(guān)鍵因素。而在這背后,供電電源的穩(wěn)定性和高效性則是保障AI
    的頭像 發(fā)表于 10-25 11:26 ?1447次閱讀
    AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>供電電源測試?yán)?費思低壓大電流系列電子負(fù)載

    【「芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 編輯 感謝平臺提供的書籍,厚厚的一本,很有分量,感謝作者的傾力付出成書。 本書主要講芯片CPU
    發(fā)表于 10-15 22:08

    ARMxy工業(yè)控制器為視頻監(jiān)控提供1Tops支持

    ARMxy ARM工業(yè)控制器以其1TopsNPU,在視頻監(jiān)控中的應(yīng)用展現(xiàn)出了不錯的性能和廣泛的應(yīng)用,為用戶提供了高效、穩(wěn)定和可靠的解決方案,一起看看它的具體應(yīng)用吧。 一、ARMxy ARM工業(yè)
    的頭像 發(fā)表于 08-20 12:03 ?735次閱讀
    ARMxy工業(yè)控制器為視頻監(jiān)控提供1<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>支持

    用ARMxy ARM工業(yè)控制器自帶的1Tops實現(xiàn)高性能圖像處理

    ARMxy ARM工業(yè)控制器憑借其強大的性能、靈活的配置和高度集成的特性,尤其是其內(nèi)置的1TopsNPU(神經(jīng)網(wǎng)絡(luò)處理單元),在圖像識別領(lǐng)域展現(xiàn)出了良好的處理性能。本文將簡易說明ARMxy ARM工業(yè)控制器如何利用其1
    的頭像 發(fā)表于 08-20 11:55 ?956次閱讀
    用ARMxy ARM工業(yè)控制器自帶的1<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>實現(xiàn)高性能圖像處理

    刷新AI PC NPU,AMD銳龍AI 9 HX 375領(lǐng)銜55 TOPS

    NPU性能第一梯隊。而此次推出的Ryzen AI 9 HX 375進一步提升至55 TOPS。在NPU這條路上AMD甚是積極。 ?
    的頭像 發(fā)表于 08-07 00:28 ?4744次閱讀
    刷新AI PC NPU<b class='flag-5'>算</b><b class='flag-5'>力</b>,AMD銳龍AI 9 HX 375領(lǐng)銜55 <b class='flag-5'>TOPS</b>