在谷歌第一代可擴(kuò)展分布式訓(xùn)練和推理系統(tǒng)取得成功后,谷歌大腦團(tuán)隊(duì) DistBelief 與 Alphabet 合作,構(gòu)建了用于大規(guī)模機(jī)器學(xué)習(xí)模型實(shí)施和部署的第二代系統(tǒng) TensorFlow。
與 DistBelief相比,TensorFlow 的編程模型更加靈活,同時(shí)保持其高性能和對(duì)訓(xùn)練的支持以及在各種異構(gòu)硬件平臺(tái)上使用廣泛的機(jī)器學(xué)習(xí)模型。正如谷歌所說(shuō),“偉大的軟件最閃耀的是偉大的硬件,”谷歌的幾個(gè)團(tuán)隊(duì)探索了用于機(jī)器學(xué)習(xí)應(yīng)用程序的定制加速器的設(shè)計(jì)。這些努力促成了張量處理單元 (TPU) 的誕生,這是一種用于機(jī)器學(xué)習(xí)的定制專用集成電路,專為 TensorFlow 量身定制。
一年多來(lái),谷歌在其數(shù)據(jù)中心驗(yàn)證了 TPU 的性能和效率,這些 TPU 的每瓦性能優(yōu)化了一個(gè)數(shù)量級(jí)。TPU 芯片更能容忍降低的計(jì)算精度,這意味著每次操作只需要很少的晶體管,從而在相同的硅流片上每秒產(chǎn)生更多的操作。
在定量分析方面,與現(xiàn)代 CPU 和 GPU 相比,TPU 的性能提高了 15-30 倍,每瓦性能提高了 30-80 倍。通過(guò)這種方式,谷歌可以以更低的成本大規(guī)模設(shè)計(jì)和部署機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型。谷歌 TPU 采用 28nm 工藝技術(shù),運(yùn)行頻率為 700MHz,運(yùn)行時(shí)功耗為 40W,支持 PCIe Gen3 x16 總線,提供 12.5GB/s 的帶寬用于與其主機(jī)平臺(tái)連接。
通往谷歌珊瑚之路
Google 推出了 Coral,這是一個(gè)用于構(gòu)建 AI 應(yīng)用程序的完整工具包,利用高效、私密、快速和離線的設(shè)備上推理功能。所有這一切都始于 Google Edge TPU 的發(fā)布,這是一種小型專用集成電路,可為低功耗設(shè)備提供高性能 ML 推理。
單個(gè) ASIC 每秒可以執(zhí)行 4 萬(wàn)億次操作 (4 TOPS),同時(shí)需要 2 瓦的功率 (2 TOPS/watt)。Cloud TPU 與 Edge TPU 非常不同,因?yàn)樗鼈兎浅_m合訓(xùn)練可能需要數(shù)周時(shí)間才能在硬件上訓(xùn)練的大型復(fù)雜機(jī)器學(xué)習(xí)模型。邊緣 TPU 專為前面提到的小型和低功耗設(shè)備而設(shè)計(jì),是設(shè)備上 ML 推理的理想選擇。
顧名思義,Google Edge TPU 僅使用第一代 Edge TPU 支持 TensorFlow Lite,該 TPU 能夠執(zhí)行卷積神經(jīng)網(wǎng)絡(luò) (CNN) 等深度前饋神經(jīng)網(wǎng)絡(luò),使其成為基于視覺(jué)的 ML 應(yīng)用程序的不錯(cuò)選擇。此 Edge TPU 可以執(zhí)行加速機(jī)器學(xué)習(xí)訓(xùn)練,但僅限于保留最后一層。但是,API 可以通過(guò)反向傳播和權(quán)重印記來(lái)執(zhí)行加速遷移學(xué)習(xí)。
為了支持 Google TPU,制造商在 Coral 的引擎蓋下設(shè)計(jì)了幾個(gè)集成邊緣 TPU 的硬件。列表中的一些流行的定制硬件包括開(kāi)發(fā)板和 USB 加速器——被視為許多以人工智能為中心的應(yīng)用程序?qū)嶒?yàn)的一部分。
來(lái)自澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織 (CSIRO)、昆士蘭大學(xué)和昆士蘭科技大學(xué)的一組研究人員報(bào)告了與廣泛采用的嵌入式處理器 Arm Cortex-A53 相比,Edge TPU 的能效性能研究結(jié)果[2]。結(jié)果表明,對(duì)于少于 5400 個(gè)輸入節(jié)點(diǎn)和 0.15MB 模型大小的模型,Cortex-A53 比 Edge TPU 更有效。然而,隨著模型大小的增加,Edge TPU 的性能優(yōu)于 Cortex-A53——保持性能直到模型大小超過(guò) 8MB。一旦模型大小達(dá)到 13.5MB 左右,Cortex-A53 就會(huì)超過(guò) Edge TPU,并且輸入節(jié)點(diǎn)數(shù)超過(guò) 5400,Cortex-A53 就非常高效。
向前邁出一步
最近,谷歌在沒(méi)有任何官方新聞稿或公告的情況下,推出了帶有板載攝像頭、麥克風(fēng)和 Edge TPU 的新型 Coral 開(kāi)發(fā)板 micro 的登陸頁(yè)面。65x30 mm 微型開(kāi)發(fā)板比著名的羽毛外形稍大,集成了 NXP i.MX RT1176 微控制器,具有 Cortex-A7 和 Cortex-A4 以及 Coral Edge TPU 協(xié)處理器,可提供 4 TOPS。Arm 處理器在單個(gè)硅流片中的組合提供了卓越的計(jì)算能力和多種媒體功能。
根據(jù)板載組件,內(nèi)置攝像頭和麥克風(fēng)表明了用于原型設(shè)計(jì)和部署低功耗嵌入式系統(tǒng)(如對(duì)象檢測(cè)和圖像分類)的特殊設(shè)計(jì)。深度神經(jīng)網(wǎng)絡(luò)優(yōu)化了由 Edge TPU 設(shè)備上機(jī)器學(xué)習(xí)推理支持的基于視覺(jué)的應(yīng)用程序的實(shí)現(xiàn)。除了良好的輸入/輸出連接外,12 針 GPIO 接頭使開(kāi)發(fā)人員能夠?qū)?I/O 設(shè)備連接到 Coral 微開(kāi)發(fā)板。
隨著谷歌意識(shí)到需要滿足極低功耗邊緣設(shè)備的需求,以實(shí)現(xiàn)更快的數(shù)據(jù)處理和低延遲,谷歌發(fā)布了 Coral 開(kāi)發(fā)板微,專注于微控制器驅(qū)動(dòng)的 tinyML 項(xiàng)目。谷歌沒(méi)有透露該產(chǎn)品定價(jià)和可用性的許多細(xì)節(jié),這意味著感興趣的開(kāi)發(fā)者需要無(wú)限期地等待更明確的信息。
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
19896瀏覽量
235244 -
嵌入式
+關(guān)注
關(guān)注
5152文章
19675瀏覽量
317598 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134622
發(fā)布評(píng)論請(qǐng)先 登錄
PTR54L15系列低功耗無(wú)線多協(xié)議模組
Nordic收購(gòu) Neuton.AI 關(guān)于產(chǎn)品技術(shù)的分析
低功耗藍(lán)牙模組在電動(dòng)工具類設(shè)備上的應(yīng)用
能效比達(dá)2TOPS/W!解密邊緣AI芯片低功耗設(shè)計(jì)之法
Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)
在Google Colab筆記本電腦上導(dǎo)入OpenVINO?工具包2021中的 IEPlugin類出現(xiàn)報(bào)錯(cuò),怎么解決?
構(gòu)建開(kāi)源OpenVINO?工具包后,使用MYRIAD插件成功運(yùn)行演示時(shí)報(bào)錯(cuò)怎么解決?
云計(jì)算開(kāi)發(fā)工具包的功能
AI賦能邊緣網(wǎng)關(guān):開(kāi)啟智能時(shí)代的新藍(lán)海
Labview聲音和振動(dòng)工具包示例文件Sound Level
最新Simplicity SDK軟件開(kāi)發(fā)工具包發(fā)布
基于EasyGo Vs工具包和Nl veristand軟件進(jìn)行的永磁同步電機(jī)實(shí)時(shí)仿真

SEGGER為ADI超低功耗微控制器提供SystemView軟件分析工具
FPGA仿真工具包軟件EasyGo Vs Addon介紹

采用德州儀器 (TI) 工具包進(jìn)行模擬前端設(shè)計(jì)應(yīng)用說(shuō)明

評(píng)論