一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

專家與處理器架構(gòu)未來

M8kW_icbank ? 來源:未知 ? 作者:李威 ? 2018-03-05 15:29 ? 次閱讀

一年一度的ISSCC(International Solid State Circuits Conference的簡稱,中文名固態(tài)電路年會)正式拉開帷幕,在這個被稱為“集成電路奧利匹克”的會議上,來自全球各地的專家齊聚一堂,探討集成電路的未來。計算機體系專家David Paterson也在會議上發(fā)表了題為《50 Years of Computer Architecture:from Mainframe CPUs to DNN TPUs and Open RISC-V》的演講,讓我們看一下體系結(jié)構(gòu)專家眼里的處理器未來。

對過去處理器發(fā)展的回顧

他表示,在20世紀60年代初,當時IBM同時擁有4條完全不兼容的產(chǎn)品線(701 ? 7094、650 ? 7074、702 ? 7080和1401 ? 7010),IBM面臨著非常嚴重的兼容性問題。其中每一條產(chǎn)品線都擁有各自完全獨立的指令集體系結(jié)構(gòu)(ISA),I/O系統(tǒng)和二次存儲,磁盤存儲系統(tǒng),匯編程序,編譯器,庫以及市場利基。

這幾條完全不兼容的產(chǎn)品線也使得當時的處理器設(shè)計變得異常復雜,設(shè)計者必須在數(shù)據(jù)存儲路徑和控制單元之間進行非常詳細的區(qū)分。可以說,早期的計算機設(shè)計者所面臨的最大問題就是控制單元的指令控制線是否正確,能夠起到作用。

此前,Maurice Wilkes在1958年提出了用微程序設(shè)計的思想來設(shè)計控制單元,簡化我們在設(shè)計過程中所遇到的問題,這種情況之下,我們只需要考慮一下幾個問題:ROMRAM的價格問題,ROM比RAM便宜,而且ROM比RAM速度更快。

隨著IC技術(shù)、微指令和CISC的發(fā)展,Logic、RAM和ROM都應(yīng)用了相同的晶體管半導體RAM和ROM的速度也差不多;隨著摩爾定律的發(fā)展,控制指令的存儲空間也逐漸增加;允許更多的CISC;類似TTL 服務(wù)器這樣的小型計算機的出現(xiàn),推動處理器產(chǎn)業(yè)進入了新階段。

伴隨而來的是微處理器技術(shù)的革新。

David Paterson表示,上世紀70年代,在MOS技術(shù)和主流ISA的推動下,計算機經(jīng)歷了快速的發(fā)展,出現(xiàn)了以Intel i432為代表的產(chǎn)品。

之后也推出了Intel 8086等劃時代的產(chǎn)品。

之后就到了微指令機器的二十世紀八十年代。

從CISC到RISC,架構(gòu)面臨瓶頸

計算機發(fā)展之初,ROM比起RAM來說更便宜而且更快,所以并不存在片上緩存(cache)這個東西。在那個時候,復雜指令集(CISC)是主流的指令集架構(gòu)。然而,隨著RAM技術(shù)的發(fā)展,RAM速度越來越快,成本越來越低,因此在處理器上集成指令緩存成為可能。

同時,由于當時編譯器的技術(shù)并不純熟,程序都會直接以機器碼或是匯編語言寫成,為了減少程序設(shè)計師的設(shè)計時間,逐漸開發(fā)出單一指令,復雜操作的程序碼,設(shè)計師只需寫下簡單的指令,再交由CPU去執(zhí)行。

但是后來有人發(fā)現(xiàn),整個指令集中,只有約20%的指令常常會被使用到,約占整個程序的80%;剩余80%的指令,只占整個程序的20%。

于是1979年,David Paterson教授提出了RISC的想法,主張硬件應(yīng)該專心加速常用的指令,較為復雜的指令則利用常用的指令去組合。使用精簡指令集(RISC)可以大大簡化硬件的設(shè)計,從而使流水線設(shè)計變得簡化,同時也讓流水線可以運行更快。

Paterson教授重申了評估處理器性能的指標,即程序運行時間。程序運行時間由幾個因素決定,即程序指令數(shù),平均指令執(zhí)行周期數(shù)(CPI)以及時鐘周期。程序指令數(shù)由程序代碼,編譯器以及ISA決定,CPI由ISA以及微架構(gòu)決定,時鐘周期由微架構(gòu)以及半導體制造工藝決定。對于RISC,程序指令數(shù)較多,但是CPI遠好于CISC,因此RISC比CISC更快。

據(jù)介紹,RISC有以下多個優(yōu)點:

指令長度固定,方便CPU譯碼,簡化譯碼器設(shè)計。

盡量在CPU的暫存器(最快的存儲器元件)里操作,避免額外的讀取與載入時間。

由于指令長度固定,更能受益于執(zhí)行線路管線化(pipeline)后所帶來的效能提升。

處理器簡化,晶體管數(shù)量少,易于提升運作時脈。比起同時脈的CISC處理器,耗電量較低。

除了CISC和RISC之外,另一種流行(過)的ISA是超長指令字(VLIW)。

VLIW是美國Multiflow和Cydrome公司于20世紀80年代設(shè)計的體系結(jié)構(gòu),主要應(yīng)用于Trimedia(全美達)公司的Crusoe和Efficeon系列處理器中。AMD的Athlon64處理器系列也是采用這一指令系統(tǒng),包括其服務(wù)器處理器版本Operon。

同樣Intel最新的IA-64架構(gòu)中的EPIC也是從VLIW指令系統(tǒng)中分離出來的。VLIW架構(gòu)采用了先進的EPIC(清晰并行指令)設(shè)計,我們也把這種構(gòu)架叫做“IA-64架構(gòu)”。每時鐘周期例如IA-64可運行20條指令,而CISC通常只能運行1-3條指令,RISC能運行4條指令,可見VLIW要比CISC和RISC強大的多。

之后David Paterson還談到了Intel 的安騰處理器和EPIC IA-64。

然而,VLIW架構(gòu)遇到了巨大的失敗。VLIW的問題,包括分支預測困難,Cache miss無法解決,代碼爆炸以及最關(guān)鍵的,編譯器過于復雜以至于無法實現(xiàn)。

此外,基于VLIW指令集字的CPU芯片使得程式變得很大,需要更多的內(nèi)存。更重要的是編譯器必須更聰明,一個低劣的VLIW編譯器對性能造成的負面影響遠比一個低劣的RISC或CISC編譯器造成的影響要大。

David Paterson還對今天的ISA做了一個總結(jié)。他指出,目前處理器的ISA,已經(jīng)30多年沒有新的CISC ISA出現(xiàn)(Intel x86表面用的是CISC但是內(nèi)部有硬件把CISC轉(zhuǎn)換成RISC再真正執(zhí)行)。VLIW在一些嵌入式DSP市場獲得應(yīng)用,但是在其他的市場都沒有獲得成功??紤]到處理器的數(shù)量,目前最主流的通用ISA還是RISC。

IT領(lǐng)域面臨新挑戰(zhàn),TPU橫空出世

按照David Paterson的觀點,現(xiàn)在的IT技術(shù)面臨新的挑戰(zhàn)。例如登納德縮放定律的失效,功耗成為了關(guān)鍵的約束;摩爾定律也面臨困難,晶體管的提升變慢。另外,在架構(gòu)上也有新的問題出現(xiàn)。

同時,處理器性能增長也面臨性能增長瓶頸。

在David Paterson看來,對于任何運算來說,更換新硬件無非是為了兩個目的:更快的速度和更低的能耗。但由于面臨晶體管并沒有變得更好、功率預算也不高等問題。許多架構(gòu)師認為,現(xiàn)在只有領(lǐng)域定制硬件(domain-specific hardware)能帶來成本、能耗、性能上的重大改進。

緊接著,David Paterson介紹了谷歌的TPU。

TPU 的核心是一個65,536的8位矩陣乘單元陣列(matrix multiply unit)和片上28MB的軟件管理存儲器,峰值計算能力為92 TeraOp/s(TOPS)。

與CPU和GPU由于引入了Cache、亂序執(zhí)行、多線程和預取等造成的執(zhí)行時間不確定相比,TPU 的確定性執(zhí)行模塊能夠滿足 Google 神經(jīng)網(wǎng)絡(luò)應(yīng)用上 99% 相應(yīng)時間需求。

CPU/GPU的結(jié)構(gòu)特性對平均吞吐率更有效,而TPU針對響應(yīng)延遲設(shè)計。正是由于缺乏主流的CPU/GPU硬件特性,盡管擁有數(shù)量巨大的矩陣乘單元 MAC 和極大的偏上存儲,TPU 的芯片相對面積更小,耗能更低。

根據(jù)David Paterson的介紹,TPU是一個神經(jīng)網(wǎng)絡(luò)加速器芯片,將 TPU 與服務(wù)器級的 Intel Haswell CPU 和 Nvidia K80 GPU 進行比較,這些硬件都在同一時期部署在同個數(shù)據(jù)中心。測試負載為基于 TensorFlow 框架的高級描述,應(yīng)用于實際產(chǎn)品的 NN 應(yīng)用程序(MLP,CNN 和 LSTM),這些應(yīng)用代表了我們數(shù)據(jù)中心承載的95%的 NN 推理需求。

盡管在一些應(yīng)用上利用率很低,但 TPU 平均比當前的 GPU 或 CPU 快15~30倍,性能功耗比(TOPS/Watt)高出約 30~80 倍。此外,在 TPU 中采用 GPU 常用的 GDDR5 存儲器能使性能TPOS指標再高 3 倍,并將能效比指標 TOPS/Watt 提高到 GPU 的 70 倍,CPU 的 200 倍。

David Paterson還做了一個可視的性能模型。

還對TPU /CPU/GPU 的Die Roofline做了對比。

TPU:

CPU:

GPU:

之后David Paterson還對CPU、GPU和TPU的Log Rooflines做了對比。

另外還有Linear Rooflines

他還將TPU & GPU的相關(guān)性能與CPU對比

在性能方面,David Paterson也做了對比。

還對TPU做了數(shù)據(jù)對比

按照David Paterson的總結(jié)了通用CPU開始變慢,特定架構(gòu)的處理器將會流行與谷歌的TPU在DNN中發(fā)生重要作用,能夠幫助完成不少任務(wù)等問題:

RISC V也是未來的一個機遇

David Paterson表示,SoC上擁有了很多ISA。

緊接著,他提出,我們是否真的需要不同的ISA?這些指令集是否真的需要歸屬于專人?

況且在ISA領(lǐng)域,之前并沒有公認的標準,也沒有開源免費的ISA,僅有商用的ISA,這讓整個ISA領(lǐng)域的生態(tài)顯得死氣沉沉。David Paterson就提出了是否存在一個免費的ISA讓所有人都能夠使用的問題?于是,RISC-V應(yīng)運而生。

要做開源的ISA,基于x86和ARM都幾乎不可能,因為它們都太復雜,而且還存在IP的問題。

在2010年夏天,Paterson教授帶領(lǐng)團隊開始從頭開始設(shè)計一個干凈的ISA。經(jīng)歷了很多年,經(jīng)過多次流片驗證,終于在2014年發(fā)布了最終版spec,就是RISC-V(V是第五代的意思)。

RISC-V作為一個開源ISA,首先要滿足對ISA的一般要求。

首先,它必須與現(xiàn)存的主流編程語言和軟件兼容。

第二,它必須有直接硬件實現(xiàn),而不是一個虛擬機。

第三,它必須有很好的彈性,能滿足小至微控制器MCU)大到超級計算機的需求。

第四,能與各種實現(xiàn)方式兼容,包括FPGA,ASIC,全定制CPU,以及未來的其他實現(xiàn)。

第五,需要與各種微架構(gòu)配適,包括有序執(zhí)行,無序執(zhí)行,單發(fā)射,超標量等等。

最后,還需要滿足可擴展性(可以作為基礎(chǔ)ISA,在特殊用途中加上額外的增強ISA),以及穩(wěn)定性(不會一直變化,不會突然消失等等)。

除了滿足一般的需求外,RISC-V還有自己的特色。

這個新近流行的架構(gòu)還具備以下特點:

首先,它很簡單,比其他的商用ISA規(guī)模都要小很多。

第二,它很干凈,例如在用戶與特權(quán)ISA之間涇渭分明,有非常清晰的界限。另外,RISC-V中沒有與微架構(gòu)或?qū)崿F(xiàn)方式有關(guān)的特性,因此具有普適性。

第三,RISC-V是模塊化的ISA,它的基礎(chǔ)ISA集很小,但是可以根據(jù)用戶需求去加載擴展集。

最后,RISC-V特別為了可擴展性和專精化做了優(yōu)化,使用了可變長度的指令編碼,并且有許多空間以供指令集擴展。

最特別的一點是,RISC-V支撐了一個開源的社區(qū),包含了非盈利基金會以及開源代碼庫。RISC-V的愿景是未來各種靈活而低價處理器芯片的基礎(chǔ)。RISC-V一開始的貢獻者包括伯克利和SiFive(一家初創(chuàng)公司),目前在征求各類設(shè)計者加入開源社區(qū),需要代碼以及其他硬件IP(如PLL,PHY等等)。

現(xiàn)在的RISC-V聯(lián)盟擁有了過百個會員:

另外還有很多的工作組:

David Paterson最后還總結(jié)一下幾大使用RISC和RISC-V的理由。

第一,35年以來,RISC始終是一個好主意。

第二,RISC-V是免費開源架構(gòu),無須付費。

第三,它的ISA比起其他ISA來說簡單許多,因此驗證起來也方便許多。RISC-V可以在各種設(shè)計中比起其他ISA更高效,面積、功耗和性能都更好

第四,RISC-V很穩(wěn)定,不用擔心突然發(fā)生很大變化或者直接就消失。

第五,RISC-V可以作為各種SoC核的基礎(chǔ)ISA。

現(xiàn)在RISC-V的小目標,是成為一種適合各種計算設(shè)備的業(yè)界標準ISA。一個新的處理器時代即將到來。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ISA
    ISA
    +關(guān)注

    關(guān)注

    0

    文章

    56

    瀏覽量

    43960
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    151

    瀏覽量

    21026
  • 開源架構(gòu)
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    6993
  • 處理器架構(gòu)
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    6745

原文標題:David Paterson眼里的處理器架構(gòu)未來

文章出處:【微信號:icbank,微信公眾號:icbank】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    低功耗處理器的優(yōu)勢分析

    就考慮到能耗問題,通過優(yōu)化架構(gòu)、工藝和軟件來降低功耗的處理器。它們通常采用先進的制造工藝,如FinFET或GAAFET技術(shù),以及高效的電源管理技術(shù),以實現(xiàn)在保持性能的同時減少能耗。 低功耗處理器的優(yōu)勢 1. 節(jié)能和環(huán)保 減少能源
    的頭像 發(fā)表于 02-07 09:14 ?669次閱讀

    EE-355:面向SHARC處理器專家在線閃存編程

    電子發(fā)燒友網(wǎng)站提供《EE-355:面向SHARC處理器專家在線閃存編程.pdf》資料免費下載
    發(fā)表于 01-08 15:05 ?0次下載
    EE-355:面向SHARC<b class='flag-5'>處理器</b>的<b class='flag-5'>專家</b>在線閃存編程<b class='flag-5'>器</b>

    EE-322:面向SHARC處理器專家代碼生成器

    電子發(fā)燒友網(wǎng)站提供《EE-322:面向SHARC處理器專家代碼生成器.pdf》資料免費下載
    發(fā)表于 01-07 14:04 ?0次下載
    EE-322:面向SHARC<b class='flag-5'>處理器</b>的<b class='flag-5'>專家</b>代碼生成器

    EE-202:將專家鏈接器用于多處理器LDFs

    電子發(fā)燒友網(wǎng)站提供《EE-202:將專家鏈接器用于多處理器LDFs.pdf》資料免費下載
    發(fā)表于 01-06 14:33 ?0次下載
    EE-202:將<b class='flag-5'>專家</b>鏈接器用于多<b class='flag-5'>處理器</b>LDFs

    迅為3A6000_7A2000核心主板龍芯全國產(chǎn)處理器LoongArch架構(gòu)

    ,也證明了國內(nèi)有能力在自研 CPU 架構(gòu)上做出一流的產(chǎn)品。 龍芯 3A6000 處理器采用龍芯自主指令系統(tǒng)龍架構(gòu)(LoongArch),是龍芯第四代微架構(gòu)的首款產(chǎn)品,主頻達到 2.5G
    發(fā)表于 10-12 11:25

    對稱多處理器的特點是什么

    的主要特點是處理器之間的對稱性,這意味著每個處理器都可以執(zhí)行任何任務(wù),并且它們在處理能力上是等價的。 1. SMP的定義和歷史 對稱多處理器系統(tǒng)是一種多
    的頭像 發(fā)表于 10-10 16:36 ?741次閱讀

    對稱多處理器和非對稱多處理器的區(qū)別

    隨著計算需求的日益增長,單處理器系統(tǒng)已經(jīng)無法滿足高性能計算的需求。多處理器系統(tǒng)應(yīng)運而生,它們通過將多個處理器集成到一個系統(tǒng)中來提高計算能力。在多處理器系統(tǒng)中,有兩種主要的
    的頭像 發(fā)表于 10-10 15:58 ?1848次閱讀

    簡述微處理器的指令集架構(gòu)

    處理器的指令集架構(gòu)(Instruction Set Architecture,ISA)是計算機體系結(jié)構(gòu)中的核心組成部分,它定義了計算機能夠執(zhí)行的指令集合、數(shù)據(jù)類型、寄存、內(nèi)存訪問方式等,是連接
    的頭像 發(fā)表于 10-05 14:59 ?917次閱讀

    ARM處理器和CPU有什么區(qū)別

    ARM處理器和CPU(中央處理器)之間的關(guān)系及區(qū)別,可以從多個維度進行深入探討。首先,需要明確的是,ARM處理器并非一種獨立的CPU類型,而是指由ARM公司設(shè)計的一系列處理器
    的頭像 發(fā)表于 09-10 11:24 ?2826次閱讀

    ARM處理器的寄存組織及功能

    ARM處理器的寄存組織是其核心架構(gòu)的重要組成部分,對于理解ARM處理器的運行機制和性能特點具有重要意義。以下是對ARM處理器寄存
    的頭像 發(fā)表于 09-10 11:11 ?2299次閱讀

    ARM處理器和CISC處理器的區(qū)別

    ARM處理器和CISC(復雜指令集計算機)處理器在多個方面存在顯著的區(qū)別。這些區(qū)別主要體現(xiàn)在架構(gòu)原理、性能與功耗、設(shè)計目標、應(yīng)用領(lǐng)域以及市場生態(tài)等方面。
    的頭像 發(fā)表于 09-10 11:10 ?783次閱讀

    ARM處理器的結(jié)構(gòu)和特點

    ARM處理器,全稱Advanced RISC Machines,是一種基于精簡指令集(RISC)架構(gòu)的微處理器。其結(jié)構(gòu)和特點在嵌入式系統(tǒng)、移動設(shè)備、物聯(lián)網(wǎng)等多個領(lǐng)域具有顯著優(yōu)勢。以下將詳細闡述ARM
    的頭像 發(fā)表于 09-10 11:09 ?2752次閱讀

    哪種嵌入式處理器架構(gòu)將引領(lǐng)未來十年的發(fā)展?

    一段時間以來,許多工程師和開發(fā)人員一直在討論嵌入式處理器架構(gòu)未來。雖然嵌入式芯片架構(gòu)市場上有明確的引領(lǐng)者,但該行業(yè)正在快速擴張,預計未來
    的頭像 發(fā)表于 08-30 15:03 ?498次閱讀
    哪種嵌入式<b class='flag-5'>處理器</b><b class='flag-5'>架構(gòu)</b>將引領(lǐng)<b class='flag-5'>未來</b>十年的發(fā)展?

    X86架構(gòu)處理器有哪些優(yōu)點和缺點

    X86架構(gòu)處理器作為計算機領(lǐng)域的重要組成部分,具有多個顯著的優(yōu)點和一定的缺點。以下是對X86架構(gòu)處理器優(yōu)缺點的詳細分析。
    的頭像 發(fā)表于 08-22 11:25 ?3977次閱讀

    處理器的指令集架構(gòu)介紹

    和執(zhí)行。指令集架構(gòu)不僅影響微處理器的性能,還決定了其兼容性、可編程性和應(yīng)用場景。以下是對微處理器指令集架構(gòu)的詳細探討,內(nèi)容將圍繞其定義、主要類型、設(shè)計原則、應(yīng)用場景及
    的頭像 發(fā)表于 08-22 10:53 ?2085次閱讀