青青青青草天天干,8848.C0m成人,欧美成人一区国产日韩亚洲

人工智能模型的復(fù)雜度不斷增加，對內(nèi)存的需求也越來越大。深度學(xué)習(xí)的進(jìn)一步發(fā)展需要解決內(nèi)存限制問題，而當(dāng)前的解決方案無法利用所有可用計(jì)算，業(yè)內(nèi)人士逐漸意識(shí)到需要專用芯片來支持深度學(xué)習(xí)訓(xùn)練和推理。

英特爾則在人工智能方面提供優(yōu)越的硬件選擇，并通過軟件來最大化釋放硬件的性能，從而幫助客戶無論是數(shù)據(jù)多么復(fù)雜或位于哪里都可以自如運(yùn)行AI應(yīng)用。

7月3日-4日，在百度AI開發(fā)者大會(huì)上，英特爾公司副總裁兼人工智能產(chǎn)品事業(yè)部總經(jīng)理Naveen Rao宣布，英特爾正與百度合作開發(fā)英特爾? Nervana?神經(jīng)網(wǎng)絡(luò)訓(xùn)練處理器（NNP-T）。這一合作包括全新定制化加速器，以實(shí)現(xiàn)極速訓(xùn)練深度學(xué)習(xí)模型的目的。

此次NNP-T是一類全新開發(fā)的高效深度學(xué)習(xí)系統(tǒng)硬件，能夠加速大規(guī)模的分散訓(xùn)練。與百度的密切合作能夠確保英特爾開發(fā)部門始終緊跟客戶對訓(xùn)練硬件的最新需求。

從2016年起，英特爾便一直針對英特爾?至強(qiáng)?可擴(kuò)展處理器優(yōu)化百度飛槳（PaddlePaddle*）深度學(xué)習(xí)框架。如今，通過為百度飛槳優(yōu)化NNP-T，雙方能夠?yàn)閿?shù)據(jù)科學(xué)家提供更多的硬件選擇。

與此同時(shí)，英特爾還通過更多技術(shù)來進(jìn)一步增強(qiáng)這些AI解決方案的性能。例如，憑借英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存所提供的更高內(nèi)存性能，百度能夠通過其Feed Stream*（信息流）服務(wù)向數(shù)百萬用戶提供個(gè)性化移動(dòng)內(nèi)容，并通過百度AI推薦引擎獲得更高效的客戶體驗(yàn)。

此外，鑒于數(shù)據(jù)安全對于用戶極其重要，英特爾還與百度共同致力于打造基于英特爾軟件保護(hù)擴(kuò)展（SGX）技術(shù)的MesaTEE*——內(nèi)存安全功能即服務(wù)（FaaS）計(jì)算框架。

Naveen Rao表示：“未來幾年，AI模型的復(fù)雜性以及對大規(guī)模深度學(xué)習(xí)計(jì)算的需求將爆發(fā)式增長。英特爾和百度將延續(xù)雙方十多年的合作并聚焦于聯(lián)合設(shè)計(jì)和開發(fā)全新的硬件以及配套軟件，從而向‘AI 2.0’的新疆界不斷邁進(jìn)?！?/p>

而在英特爾分論壇上，英特爾及其合作伙伴分別就邊緣計(jì)算、百度超級(jí)計(jì)算平臺(tái)的軟硬件優(yōu)化、英特爾 DL Boost、百度海洋引擎與英特爾SGX的合作、愛奇藝在OpenVINO?上的AI實(shí)踐以及英特爾AEP的分布式系統(tǒng)在AI訓(xùn)練和數(shù)據(jù)處理上的實(shí)踐等方面的技術(shù)細(xì)節(jié)進(jìn)行了探討。我們將從以下四個(gè)演講中闡釋英特爾取得的主要進(jìn)展。

英特爾DL Boost的至強(qiáng)云端深度學(xué)習(xí)推理優(yōu)化實(shí)踐

英特爾DL Boost是一套旨在加快人工智能深度學(xué)習(xí)速度的處理器技術(shù)。英特爾人工智能資深架構(gòu)師姚偉峰講述了利用英特爾DL Boost的至強(qiáng)云端深度學(xué)習(xí)推理優(yōu)化實(shí)踐。

DL Boost基于AVX-512擴(kuò)展新的矢量神經(jīng)網(wǎng)絡(luò)指令集，性能提升是數(shù)量級(jí)的，具有更好的TCO，為終端用戶提供更一致性的體驗(yàn)。他指出，英特爾 DL Boost VNNI就是為加速深度學(xué)習(xí)推理任務(wù)而生。他還從圖優(yōu)化、量化、算子優(yōu)化三方面詳細(xì)講解了XEON深度學(xué)習(xí)推理優(yōu)化。

英特爾MKL-DNN優(yōu)化的深度學(xué)習(xí)框架和OpenVINO?

英特爾軟件產(chǎn)品開發(fā)部、資深A(yù)I 技術(shù)咨詢工程師胡英以英特爾MKL-DNN優(yōu)化的深度學(xué)習(xí)框架為主講述了如何利用英特爾AI軟件工具加速深度學(xué)習(xí)。

英特爾MKL-DNN是一個(gè)開源的、性能強(qiáng)化的函數(shù)庫，用于加速在CPU上的深度學(xué)習(xí)框架，包含高度矢量化和線程化的構(gòu)建模塊，支持利用C和C++接口實(shí)施卷積神經(jīng)網(wǎng)絡(luò)。

英特爾MKL-DNN主要在以下對象上運(yùn)行：基元、引擎和流。庫文檔對這些對象的定義如下所示：

基元——任何操作，包括卷積、數(shù)據(jù)格式重新排序和內(nèi)存。基元可以以其他基元為輸入，但是智能輸出內(nèi)存基元。

引擎——一種執(zhí)行設(shè)備，如CPU。每個(gè)基元都映射為特定的引擎。

流——一種執(zhí)行環(huán)境，將基元提交至流后等待完成。提交至流的基元可能有不同的引擎。流對象也可以跟蹤基元間的相關(guān)性。

OpenVINO是英特爾基于自身現(xiàn)有的硬件平臺(tái)開發(fā)的一種可以加快高性能計(jì)算機(jī)視覺和深度學(xué)習(xí)視覺應(yīng)用開發(fā)速度工具套件，支持各種英特爾平臺(tái)的硬件加速器上進(jìn)行深度學(xué)習(xí)，并且允許直接異構(gòu)執(zhí)行。支持在Windows與Linux系統(tǒng)，使用Python/C++語言。

OpenVINO工具包主要包括兩個(gè)核心組件，模型優(yōu)化器和推理引擎。

OpenVINO的主要特點(diǎn)有：

在英特爾平臺(tái)上提升計(jì)算機(jī)視覺相關(guān)深度學(xué)習(xí)性能達(dá)19倍以上

解除CNN-based的網(wǎng)絡(luò)在邊緣設(shè)備的性能瓶頸

對OpenCV，OpenXV*視覺庫的傳統(tǒng)API實(shí)現(xiàn)加速與優(yōu)化

基于通用API接口在CPU、GPU、FPGA等設(shè)備上運(yùn)行加上

愛奇藝在OpenVINO?上的AI實(shí)踐

軟件工具包OpenVINO，專為在邊緣部署深度神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)，廣泛支持各種框架，只需編寫一次，可擴(kuò)展到不同加速器上使用，使邊緣AI實(shí)現(xiàn)高性能、高效率。

借助英特爾OpenVINO工具包，能夠幫助開發(fā)人員加快深度神經(jīng)網(wǎng)絡(luò)推理應(yīng)用的開發(fā)，支持深度神經(jīng)網(wǎng)絡(luò)測試、調(diào)整和原型制作，可以幫助開發(fā)者進(jìn)入實(shí)際應(yīng)用的量產(chǎn)階段。

愛奇藝助理研究員虞科華分享了他們在OpenVINO上的AI應(yīng)用開發(fā)的相關(guān)實(shí)踐。首先是應(yīng)用開發(fā)方法主要包括三點(diǎn)：

訓(xùn)練模型：固化模型

模型優(yōu)化：圖分割、客制化層、客制化子圖

推理引擎：模型級(jí)聯(lián)計(jì)算、多輸入尺寸設(shè)計(jì)、自動(dòng)評估CPU端執(zhí)行特征

另外，虞科華指出OpenVINO FPGA后端實(shí)踐主要包括兩方面：1推理引擎：異構(gòu)Plugin、異構(gòu)執(zhí)行分析；性能分析：Bitstream精度、異構(gòu)Affinity設(shè)置、流水線化。

OpenVINO目前在愛奇藝的落地服務(wù)主要有AI雷達(dá)、圖文審核、視頻標(biāo)簽、圖片審核等。

百度計(jì)算平臺(tái)的軟硬件優(yōu)化

作為英特爾重要的合作方，百度AI系統(tǒng)架構(gòu)師丁瑞全介紹了在百度大規(guī)模分布式訓(xùn)練系統(tǒng)中與英特爾在軟硬件優(yōu)化方面的合作。

在系統(tǒng)設(shè)計(jì)上，百度超級(jí)AI計(jì)算平臺(tái)X-MAN與英特爾進(jìn)行合作共同推動(dòng)OAI & OAM全球標(biāo)準(zhǔn)定義。

軟硬件聯(lián)合優(yōu)化方面主要包括四個(gè)方面。IO優(yōu)化，百度Fast-F共享并行文件系統(tǒng)，同時(shí)基于英特爾 SPDK，為AI場景海量小文件而優(yōu)化；預(yù)處理優(yōu)化，通過預(yù)取 + 硬件Offload + 均衡CPU與AI加速卡配比的方式進(jìn)行合作；數(shù)據(jù)下發(fā)優(yōu)化，增加下行鏈路 + 避免沖突；前后向計(jì)算優(yōu)化，自動(dòng)混合精度（AMP） +大顯存增大batch size 英特爾 AI芯片可支持bfloat16*，其動(dòng)態(tài)范圍相比float16 的更大液冷+48V供電支持計(jì)算性能更強(qiáng)的芯片；通信優(yōu)化，軟件算法優(yōu)化以及英特爾 SCR* ICL支持多機(jī)互聯(lián)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴