一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

斯坦福機器學(xué)習(xí)硬件加速器的課程學(xué)芯片技術(shù)機會來了

人工智能和機器人研究院 ? 2018-07-21 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

學(xué)芯片技術(shù)的機會來了!斯坦福大學(xué)2018秋季學(xué)期推出《機器學(xué)習(xí)硬件加速器》課程,深入介紹機器學(xué)習(xí)系統(tǒng)中設(shè)計訓(xùn)練和推理加速器的架構(gòu)技術(shù)。課程涵蓋經(jīng)典的ML算法,用于ML模型推理和訓(xùn)練的加速器設(shè)計等,超多專業(yè)材料和PPT,是本領(lǐng)域不可多得的專業(yè)課程。

本課程將深入介紹用于在機器學(xué)習(xí)系統(tǒng)中設(shè)計訓(xùn)練和推理加速器的架構(gòu)技術(shù)。本課程將涵蓋經(jīng)典的ML算法,如線性回歸和支持向量機,以及DNN模型,如卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。我們將考慮這些模型的訓(xùn)練和推理,并討論諸如batch size、精度、稀疏度和壓縮等參數(shù)對這些模型精度的影響。我們將介紹用于ML模型推理和訓(xùn)練的加速器設(shè)計。學(xué)生將熟悉使用并行性、局部性和低精度來實現(xiàn)ML中使用的核心計算內(nèi)核的硬件實現(xiàn)技術(shù)。為了設(shè)計高效節(jié)能的加速器,學(xué)生們將建立直覺,在ML模型參數(shù)和硬件實現(xiàn)技術(shù)之間進行權(quán)衡。學(xué)生將閱讀最近的研究論文并完成一個設(shè)計項目。

主講教師:

Kunle Olukotun

Kunle Olukotun是斯坦福大學(xué)電氣工程和計算機科學(xué)的Cadence設(shè)計系統(tǒng)教授,自1991年以來一直在該系任教。Olukotun以領(lǐng)導(dǎo)Stanford Hydra研究項目而著名,該項目開發(fā)了首批支持thread-level speculation的芯片多處理器。

Ardavan Pedram

Ardavan Pedram是斯坦福大學(xué)電氣工程系研究助理,與Kunle Olukotun教師合作的Pervasive Prallelism Laboratory (PPL)項目的成員。

特邀講師:

Boris Ginsburg, NVIDIA

Robert Schreiber, Cerebras Systems

Mikhail Smelyanskiy, Facebook

Cliff Young, Google

課程安排和閱讀材料

第1課:簡介,摩爾定律和Dennard Scaling定律后硬件加速器的作用

閱讀:暗硅(Dark Silicon)有用嗎? Hennessy Patterson第7.1-7.2章

https://ieeexplore.ieee.org/document/6241647/

第2課:經(jīng)典ML算法:回歸、SVM

閱讀:TABLA:基于統(tǒng)一模板的加速統(tǒng)計機器學(xué)習(xí)的架構(gòu)

https://www.cc.gatech.edu/~hadi/doc/paper/2015-tr-tabla.pdf

第3課:線性代數(shù)基礎(chǔ)和加速線性代數(shù)BLAS運算

20世紀的技術(shù):收縮陣列和MIMD,CGRAs

閱讀:為什么選擇收縮架構(gòu)?

www.eecs.harvard.edu/~htk/publication/1982-kung-why-systolic-architecture.pdf

高性能GEMM的剖析

https://www.cs.utexas.edu/users/pingali/CS378/2008sp/papers/gotoPaper.pdf

第4課:評估性能、能效、并行性,局部性、內(nèi)存層次,Roofline模型

閱讀:Dark Memory and Accelerator-Rich System Optimization in the Dark Silicon Era

https://arxiv.org/abs/1602.04183

第5課:真實世界的架構(gòu):將其付諸實踐

加速GEMM:定制,GPU,TPU1架構(gòu)及其GEMM性能

閱讀:Google TPU

https://arxiv.org/pdf/1704.04760.pdf

Codesign Tradeoffs

https://ieeexplore.ieee.org/document/6212466/

NVIDIA Tesla V100

images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf

第6課:神經(jīng)網(wǎng)絡(luò):MLP和CNN推理

閱讀:IEEE proceeding

Brooks’s book (Selected Chapters)

第7課:加速CNN的推理:實踐中的阻塞(Blocking)和并行(Parallelism)

DianNao, Eyeriss, TPU1

閱讀:一種阻塞卷積神經(jīng)網(wǎng)絡(luò)的系統(tǒng)方法

https://arxiv.org/abs/1606.04209

Eyeriss:用于卷積神經(jīng)網(wǎng)絡(luò)的節(jié)能數(shù)據(jù)流的空間架構(gòu)

https://people.csail.mit.edu/emer/papers/2016.06.isca.eyeriss_architecture.pdf

Google TPU (see lecture 5)

第8課:使用Spatial建模神經(jīng)網(wǎng)絡(luò),分析性能和能量

閱讀:Spatial:一種應(yīng)用程序加速器的語言和編譯器

http://arsenalfc.stanford.edu/papers/spatial18.pdf

第9課:訓(xùn)練:SGD,反向傳播,統(tǒng)計效率,batch size

閱讀:去年的NIPS workshop:Graphcore

https://supercomputersfordl2017.github.io/Presentations/SimonKnowlesGraphCore.pdf

第10課:DNN的彈性:稀疏性和低精度網(wǎng)絡(luò)

閱讀:EIE:壓縮深度神經(jīng)網(wǎng)絡(luò)的高效推斷機(Efficient Inference Engine)

https://arxiv.org/pdf/1602.01528.pdf

Flexpoint of Nervana

https://arxiv.org/pdf/1711.02213.pdf

Boris Ginsburg:卷積網(wǎng)絡(luò)的Large Batch訓(xùn)練

https://arxiv.org/abs/1708.03888

LSTM Block Compression by Baidu?

第11課:低精度訓(xùn)練

閱讀:HALP:High-Accuracy Low-Precision Training

https://arxiv.org/abs/1803.03383

Ternary or binary networks

See Boris Ginsburg's work (lecture 10)

第12課:分布式和并行系統(tǒng)訓(xùn)練:Hogwild!,異步和硬件效率

閱讀:Deep Gradient compression

https://arxiv.org/abs/1712.01887

Hogwild!:一種并行化隨機梯度下降的Lock-Free 方法

https://people.eecs.berkeley.edu/~brecht/papers/hogwildTR.pdf

大規(guī)模分布式深度網(wǎng)絡(luò)

https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf

第13課:FPGA和CGRAs:Catapult,Brainwave, Plasticine

Catapult

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/Cloud-Scale-Acceleration-Architecture.pdf

Brainwave

https://www.microsoft.com/en-us/research/uploads/prod/2018/03/mi0218_Chung-2018Mar25.pdf

Plasticine

dawn.cs.stanford.edu/pubs/plasticine-isca2017.pdf

第14課:ML基準:DAWNbench,MLPerf

DawnBench

https://cs.stanford.edu/~matei/papers/2017/nips_sysml_dawnbench.pdf

MLPerf

https://mlperf.org/

第15課:Project presentations

更多閱讀材料:https://cs217.github.io/readings

課程PPT:https://cs217.github.io/lecture_slides

第一課對深度學(xué)習(xí)的發(fā)展、摩爾定律、Dennard Scaling、相關(guān)理論方法等做了較為詳盡的介紹,非常干貨,下面附上第一課的PPT。

深度學(xué)習(xí)的挑戰(zhàn):深度學(xué)習(xí)存在理論嗎?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    827

    瀏覽量

    39121
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134620

原文標題:斯坦福2018秋季課程大放送!深入淺出帶你玩轉(zhuǎn)機器學(xué)習(xí)加速

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    無法導(dǎo)入硬件加速器

    嗨!我已經(jīng)創(chuàng)建了一個硬件加速器(在vhdl中)并且合成成功完成。但是,當我使用創(chuàng)建和導(dǎo)入外圍設(shè)備向?qū)r,它向我顯示我的包在庫中不可用,盡管它是。我能做什么 ???L'enfer,c'est l
    發(fā)表于 02-27 14:15

    斯坦福機器學(xué)習(xí)公開課筆記之單變量線性回歸

    斯坦福機器學(xué)習(xí)公開課筆記 一 --單變量線性回歸
    發(fā)表于 06-11 13:53

    機器學(xué)習(xí)實戰(zhàn):GNN加速器的FPGA解決方案

    的提升,對傳統(tǒng)的機器學(xué)習(xí)算法設(shè)計以及其實現(xiàn)技術(shù)來了嚴峻的挑戰(zhàn)。在此背景之下,諸多基于Graph的新型機器
    發(fā)表于 10-20 09:48

    H.264解碼中CABAC硬件加速器怎么實現(xiàn)?

    H.264解碼中CABAC硬件加速器怎么實現(xiàn)?
    發(fā)表于 06-07 06:48

    問下ARM3的硬件加速器只能用verilog寫嗎?

    問下ARM3的硬件加速器只能用verilog寫嗎?
    發(fā)表于 09-30 10:45

    利用硬件加速器提高處理的性能

    處理內(nèi)部集成的硬件加速器可以實現(xiàn)三種廣泛使用的信號處理操作:FIR(有限沖激響應(yīng))、IIR(無限沖激響應(yīng))和FFT(快速傅里葉變換)。硬件加速器減輕了核處理的負擔(dān),能潛在的提升處理
    發(fā)表于 12-04 15:22 ?1564次閱讀

    Veloce仿真環(huán)境下的SoC端到端硬件加速器功能驗證

    很多人認為硬件加速器無非是一種速度更快的仿真而已。毫無疑問,由于硬件加速器使用物理硬件進行仿真,使用硬件加速器驗證復(fù)雜的集成電路和大型片上
    發(fā)表于 03-28 14:50 ?4256次閱讀
    Veloce仿真環(huán)境下的SoC端到端<b class='flag-5'>硬件加速器</b>功能驗證

    斯坦福大學(xué)開放課程機器學(xué)習(xí)課程》[中英雙語字幕]視頻下載

    斯坦福大學(xué)開放課程機器學(xué)習(xí)課程》[中英雙語字幕]視頻下載 來源:互聯(lián)網(wǎng)(轉(zhuǎn)載協(xié)議)發(fā)布日期:2011-09-13 14:30瀏覽: 10
    發(fā)表于 06-27 18:49 ?455次閱讀

    基于Xilinx FPGA的Memcached硬件加速器的介紹

    本教程討論基于Xilinx FPGA的Memcached硬件加速器技術(shù)細節(jié),該硬件加速器可為10G以太網(wǎng)端口提供線速Memcached服務(wù)。
    的頭像 發(fā)表于 11-27 06:41 ?3994次閱讀

    毫米波傳感1443硬件加速器的簡單介紹

    2.6 mmWave波形傳感簡介1443硬件加速器
    的頭像 發(fā)表于 05-08 06:20 ?3753次閱讀
    毫米波傳感<b class='flag-5'>器</b>1443<b class='flag-5'>硬件加速器</b>的簡單介紹

    硬件加速器提升下一代SHARC處理的性能

    硬件加速器提升下一代SHARC處理的性能
    發(fā)表于 04-23 13:06 ?6次下載
    <b class='flag-5'>硬件加速器</b>提升下一代SHARC處理<b class='flag-5'>器</b>的性能

    OpenHarmony Dev-Board-SIG專場:OpenHarmony 新硬件加速器

    OpenHarmony Dev-Board-SIG專場:OpenHarmony 新硬件加速器
    的頭像 發(fā)表于 12-28 15:12 ?1559次閱讀
    OpenHarmony Dev-Board-SIG專場:OpenHarmony 新<b class='flag-5'>硬件加速器</b>

    什么是AI加速器 如何確需要AI加速器

    AI加速器是一類專門的硬件加速器或計算機系統(tǒng)旨在加速人工智能的應(yīng)用,主要應(yīng)用于人工智能、人工神經(jīng)網(wǎng)絡(luò)、機器視覺和機器
    發(fā)表于 02-06 12:47 ?5162次閱讀

    用于 AI 應(yīng)用的硬件加速器設(shè)計師指南

    當 AI 設(shè)計人員將硬件加速器整合到用于訓(xùn)練和推理應(yīng)用的定制芯片中時,應(yīng)考慮以下四個因素
    發(fā)表于 08-19 11:35 ?1946次閱讀
    用于 AI 應(yīng)用的<b class='flag-5'>硬件加速器</b>設(shè)計師指南

    借助硬件加速器開發(fā)您的設(shè)計

    借助硬件加速器開發(fā)您的設(shè)計
    的頭像 發(fā)表于 01-03 09:45 ?1173次閱讀