一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

許多不同的硬件架構在深度學習市場中共存

0BFC_eet_china ? 來源:未知 ? 作者:伍文輝 ? 2017-12-22 08:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在深度神經(jīng)網(wǎng)絡(DNN)發(fā)展的簡短歷史中,業(yè)界不斷嘗試各種可提升性能的硬件架構。通用CPU最容易編程,但每瓦特性能的效率最低。GPU針對平行浮點運算進行了優(yōu)化,性能也比CPU更高幾倍。因此,當GPU供貨商有了一大批新客戶,他們開始增強設計,以進一步提高DNN效率。例如,Nvidia新的Volta架構增加專用矩陣乘法單元,加速了常見的DNN運算。

即使是增強型的GPU,仍然受其圖形專用邏輯的拖累。此外,盡管大多數(shù)的訓練仍然使用浮點運算,但近來的趨勢是使用整數(shù)運算進行DNN推論。例如Nvidia Volta的整數(shù)性能,但仍然建議使用浮點運算進行推論。芯片設計人員很清楚,整數(shù)單元比浮點單元更小且功效更高得多;當使用8位(或更小)整數(shù)而非16位或32位浮點數(shù)時,其優(yōu)勢更加明顯。

相較于GPU,DSP則是針對整數(shù)數(shù)學而設計的,特別適用于卷積神經(jīng)網(wǎng)絡(CNN)中的卷積函數(shù)。向量DSP使用寬SIMD單元進一步加速推論計算,例如,Cadence的C5 DSP核心包括四個2048位寬度的SIMD單元;因此,核心在每個周期內(nèi)可以完成1,024個8位整數(shù)乘法累加(MAC)作業(yè)。在16nm設計中,它能每秒處理超過1兆個MAC運算。聯(lián)發(fā)科技(MediaTek)即取得了Cadence的DSP IP授權,用于其最新智能手機處理器的DNN加速器。

新架構的機會

最有效率的架構是從頭開始設計DNN,消除其它應用的特性,并針對DNN需要的特定計算進行優(yōu)化。這些架構能建置于專用ASIC或銷售至系統(tǒng)制造商的芯片(這些芯片稱為專用標準產(chǎn)品或ASSP)中。最顯著的DNN ASIC是Google的TPU,它為推論任務進行了優(yōu)化,主要包括65,536個MAC單元的脈動數(shù)組和28MB內(nèi)存,以容納DNN權重和累加器。TPU使用一個簡單的四階流水線,而且只執(zhí)行少數(shù)指令。

多家新創(chuàng)公司也在為DNN開發(fā)客制架構。英特爾(Intel)去年收購了其中的一家(Nervana),并計劃在今年年底前出樣其第一款ASSP;但該公司尚未透露該架構的任何細節(jié)。Wave Computing為DNN開發(fā)了數(shù)據(jù)流處理器。其它為此獲得眾多資金的新創(chuàng)公司包括Cerebras、Graphcore和Groq。我們預計這些公司至少有幾家會在2018年投產(chǎn)組件。

另一種建置優(yōu)化架構的方法是利用FPGA。微軟(Microsoft)廣泛采用FPGA作為其Catapult和Brainwave計劃的一部份;百度(Baidu)、Facebook以及其它云端服務器供貨商(CSP)也使用FPGA加速DNN。這種方法避免了數(shù)百萬美元的ASIC和ASSP投片費用,并提供了更快的產(chǎn)品驗證時程;只要設計改動,F(xiàn)PGA就能在幾分鐘內(nèi)重新編程和設計。但它們作業(yè)于較低的時鐘速率,并且比ASIC所能容納的邏輯塊更少得多。圖1總結(jié)了我們對這些解決方案之間相對效率的看法。

許多不同的硬件架構在深度學習市場中共存
圖1:根據(jù)不同的硬件設計,各種深度學習加速器之間的性能/功耗比至少存在兩個數(shù)量級的差異

有些公司藉由客制程度更高的加速器來強化現(xiàn)有設計,從而提供了一定的空間與彈性,例如,Nvidia專為自動駕駛車設計的Xavier芯片增加了一個整數(shù)數(shù)學模塊以加速DNN推論。Ceva和新思科技(Synopsys)設計了類似的單元,以便增強其SIMD DSP核心。這些模塊只包含大量的整數(shù)MAC單元,從而提高了數(shù)學運算效率。然而,由于他們并未置換底層的GPU或DSP架構,所以也不像從頭設計那么有效率。

客制設計的挑戰(zhàn)之一在于深度學習算法持續(xù)迅速發(fā)展中。時下最流行的DNN開發(fā)工具TensorFlow兩年前才出現(xiàn),數(shù)據(jù)科學家們已經(jīng)在評估新的DNN結(jié)構、卷積函數(shù)和數(shù)據(jù)格式了。對于兩年后的DNN來說,如今為現(xiàn)有工作負載客制的設計可能不再是理想的選擇,或甚至無法發(fā)揮作用。為了解決這個問題,大多數(shù)的ASIC和ASSP設計都是可編程且靈活的,但是FPGA提供了最大靈活度。例如,微軟已經(jīng)將專有的9位浮點格式定義為其Brainwave深度學習平臺的一部份。

融會貫通各種選擇

縱觀深度學習發(fā)展史,半導體產(chǎn)業(yè)通常首先在通用CPU中實現(xiàn)新應用。如果應用適用于現(xiàn)有的專用芯片,如GPU和DSP,那么接下來可能會轉(zhuǎn)移到這兩者。隨著時間的推移,如果新應用發(fā)展成一個規(guī)模市場,業(yè)界公司就會開始開發(fā)ASIC和ASSP,雖然這些組件可能保留一定的可編程性。只有當算法變得極其穩(wěn)定時(例如MPEG),才能真的看到以固定功能邏輯的應用建置。

深度學習目前也正按這一發(fā)展路線展開。GPU和DSP顯然是適用的,而且因需求夠高,所以ASIC開始出現(xiàn)。幾家新創(chuàng)公司和其它公司正在開發(fā)即將在2018年及其后出貨的ASSP。至于少量或利基應用,F(xiàn)PGA通常更受歡迎;深度學習已經(jīng)顯示出足以為ASIC投片帶來的前景了。

然而,哪一種DNN架構將會勝出?如今看來還不夠明朗。盡管深度學習市場正迅速成長,但仍遠低于PC、智能手機和汽車市場。因此,ASIC和ASSP的商業(yè)案例看起來還微不足道。相形之下,像英特爾和Nvidia這樣的公司可以采用來自其它市場的高性能處理器,并增強其深度學習,透過大量的軟件支持和持續(xù)的更新以提供具競爭力的產(chǎn)品。未來幾年,我們將會看到許多不同的硬件架構在深度學習市場中共存。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5561

    瀏覽量

    122805
  • 硬件架構
    +關注

    關注

    0

    文章

    30

    瀏覽量

    9223
  • dnn
    dnn
    +關注

    關注

    0

    文章

    61

    瀏覽量

    9282

原文標題:誰才是深度學習架構之王?

文章出處:【微信號:eet-china,微信公眾號:電子工程專輯】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPU架構深度解析

    GPU架構深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現(xiàn)代計算機中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強大的并行計算引擎,廣泛應用于人工智能、科學計算
    的頭像 發(fā)表于 05-30 10:36 ?391次閱讀
    GPU<b class='flag-5'>架構</b><b class='flag-5'>深度</b>解析

    Arm 公司面向 PC 市場的 ?Arm Niva? 深度解讀

    子系統(tǒng)(CSS)? ? 的垂直領域延伸,Niva 旨在通過軟硬件深度整合,解決傳統(tǒng) x86 架構能效比、AI 加速與生態(tài)兼容性上的痛點。以下結(jié)合技術
    的頭像 發(fā)表于 05-29 09:56 ?691次閱讀

    Arm 公司面向移動端市場的 ?Arm Lumex? 深度解讀

    子系統(tǒng)(CSS)? ? 移動端的落地形態(tài),Lumex 旨在通過高度集成化的軟硬件方案,解決移動設備 AI 性能、能效比與開發(fā)效率上的挑戰(zhàn)。以下從技術架構、性能突破、應用場景、生態(tài)系
    的頭像 發(fā)表于 05-29 09:54 ?1230次閱讀

    EZ-USB SX3 CYUSB3017-BZXI 能否與PolarFire MicrochipFPGA 同一電氣設計中共存?

    雖然 SX3 配置實用程序不支持給定的 FPGA,但EZ-USB SX3 CYUSB3017-BZXI 能否與PolarFire MicrochipFPGA 同一電氣設計中共存
    發(fā)表于 05-23 07:10

    OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?

    無法 OpenVINO? 工具套件的深度學習 (DL) 工作臺中導出 INT8 模型
    發(fā)表于 03-06 07:54

    軍事應用中深度學習的挑戰(zhàn)與機遇

    人工智能尤其是深度學習技術的最新進展,加速了不同應用領域的創(chuàng)新與發(fā)展。深度學習技術的發(fā)展深刻影響了軍事發(fā)展趨勢,導致戰(zhàn)爭形式和模式發(fā)生重大變化。本文將概述
    的頭像 發(fā)表于 02-14 11:15 ?540次閱讀

    AI自動化生產(chǎn):深度學習質(zhì)量控制中的應用

    隨著科技的飛速發(fā)展,人工智能(AI)與深度學習技術正逐步滲透到各個行業(yè),特別是自動化生產(chǎn)中,其潛力與價值愈發(fā)凸顯。深度學習軟件不僅使人工和
    的頭像 發(fā)表于 01-17 16:35 ?700次閱讀
    AI自動化生產(chǎn):<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>在</b>質(zhì)量控制中的應用

    GPU深度學習中的應用 GPUs圖形設計中的作用

    隨著人工智能技術的飛速發(fā)展,深度學習作為其核心部分,已經(jīng)成為推動技術進步的重要力量。GPU(圖形處理單元)深度學習中扮演著至關重要的角色,
    的頭像 發(fā)表于 11-19 10:55 ?1629次閱讀

    NPU深度學習中的應用

    設計的硬件加速器,它在深度學習中的應用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學習算法優(yōu)化的處理器,它與傳統(tǒng)的CPU和G
    的頭像 發(fā)表于 11-14 15:17 ?1923次閱讀

    pcie深度學習中的應用

    深度學習模型通常需要大量的數(shù)據(jù)和強大的計算能力來訓練。傳統(tǒng)的CPU計算資源有限,難以滿足深度學習的需求。因此,GPU(圖形處理單元)和TPU(張量處理單元)等專用
    的頭像 發(fā)表于 11-13 10:39 ?1359次閱讀

    GPU深度學習應用案例

    GPU深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度
    的頭像 發(fā)表于 10-27 11:13 ?1384次閱讀

    激光雷達技術的基于深度學習的進步

    信息。這使得激光雷達自動駕駛、無人機、機器人等領域具有廣泛的應用前景。 二、深度學習技術的發(fā)展 深度學習是機器
    的頭像 發(fā)表于 10-27 10:57 ?1073次閱讀

    FPGA加速深度學習模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些FPGA加速深度學習模型的案例: 一、基于FPG
    的頭像 發(fā)表于 10-25 09:22 ?1239次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2901次閱讀

    FPGA做深度學習能走多遠?

    的發(fā)展前景較為廣闊,但也面臨一些挑戰(zhàn)。以下是一些關于 FPGA 深度學習中應用前景的觀點,僅供參考: ? 優(yōu)勢方面: ? 高度定制化的計算架構:FPGA 可以根據(jù)
    發(fā)表于 09-27 20:53