低時(shí)延,低時(shí)延,低時(shí)延
加速整體應(yīng)用,而非單項(xiàng)加速
匹配創(chuàng)新的速度,手慢無(wú)
01 最低時(shí)延的 AI 推斷
在數(shù)據(jù)中心 AI 平臺(tái)上,對(duì)于低時(shí)延 AI 推斷,賽靈思能以最低時(shí)延的條件下提供最高吞吐量,在 GoogleNet V1 上進(jìn)行的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試當(dāng)中,賽靈思 Alveo U250 可為實(shí)時(shí)推斷提供比現(xiàn)有最快的 GPU 多出 4 倍的吞吐量。
而在邊緣 AI 平臺(tái),賽靈思方案利用 CNN 剪枝技術(shù)獲得了 AI 推斷性能的領(lǐng)導(dǎo)地位,比如,可實(shí)現(xiàn) 5-50 倍的網(wǎng)絡(luò)性能優(yōu)化;大幅增加 FPS 的前提下降低功耗。對(duì)于開(kāi)發(fā)者來(lái)說(shuō),賽靈思支持 Tensorflow、Caffe 和 MXNet 等網(wǎng)絡(luò),并用賽靈思提供的工具鏈將網(wǎng)絡(luò)部署到賽靈思的加速器上。
如下圖所示,傳統(tǒng) CPU/GPU 只能在“高吞吐量”和“低時(shí)延”兩者選擇其一,如需低時(shí)延則無(wú)法滿足大批量規(guī)模的吞吐量;而一旦需要使用大批量規(guī)模實(shí)現(xiàn)吞吐量,在處理之前,器件必須等待所有輸入就緒之后再處理,從而導(dǎo)致高時(shí)延。而使用 FPGA,則可以采用小批量規(guī)模實(shí)現(xiàn)吞吐量,并在每個(gè)輸入就緒之時(shí)開(kāi)始處理,從而降低時(shí)延。
02 整體應(yīng)用加速
通過(guò)將自定義加速器緊密耦合在動(dòng)態(tài)架構(gòu)芯片器件中,優(yōu)化了 AI 推斷,并對(duì)其它對(duì)性能有關(guān)鍵影響的功能進(jìn)行硬件加速。
提供端對(duì)端的應(yīng)用性能,該性能比 GPU 等固定架構(gòu) AI 加速器高很多;因?yàn)槭褂?GPU,在沒(méi)有自定義硬件加速性能或效率的情況下,應(yīng)用的其它性能關(guān)鍵功能須仍在軟件中運(yùn)行。
03 匹配 AI 創(chuàng)新的速度
人工智能模型正在迅速發(fā)展,新算法層出不窮,靈活應(yīng)變的芯片支持基于特定區(qū)領(lǐng)域架構(gòu)(DSA)的設(shè)計(jì),從而無(wú)需更換芯片,即可開(kāi)始優(yōu)化最新的人工智能模型。從而最大限度地匹配創(chuàng)新的速度,為客戶贏得寶貴的 Time To Market。從下圖可以看出,專用芯片開(kāi)發(fā)周期長(zhǎng),在對(duì) DSA 的支持上非常不友好,無(wú)法滿足現(xiàn)階段 AI 創(chuàng)新的更迭速度。
賽靈思是 FPGA、硬件可編程 SoC 及 ACAP 的發(fā)明者,旨在提供業(yè)界最具活力的處理器技術(shù),實(shí)現(xiàn)自適應(yīng)、智能且互連的未來(lái)世界。
-
cpu
+關(guān)注
關(guān)注
68文章
11080瀏覽量
217161 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5230瀏覽量
73535 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249703
發(fā)布評(píng)論請(qǐng)先 登錄
賽靈思分享:智能引擎中所的AI引擎技術(shù)分析
玩轉(zhuǎn)FPGA,賽靈思FPGA設(shè)計(jì)大賽開(kāi)賽啦
提交FPGA設(shè)計(jì)方案,贏取賽靈思FPGA開(kāi)發(fā)板
玩轉(zhuǎn)FPGA 賽靈思(xilinx)FPGA設(shè)計(jì)大賽獲獎(jiǎng)名單!?。?/a>
Xilinx賽靈思FPGA技術(shù)及應(yīng)用線上公開(kāi)課
如何利用賽靈思28納米工藝加速平臺(tái)開(kāi)發(fā)?
詳解賽靈思All Programmable Smarter Vision解決方案
賽靈思與戴姆勒聯(lián)袂開(kāi)發(fā)AI解決方案
賽靈思在CES發(fā)布四大重點(diǎn)
賽靈思的目標(biāo)和發(fā)展

評(píng)論