以下是摘錄給我們的合作伙伴內(nèi)容計劃的文章的摘錄,標題為“利用自然與養(yǎng)育來構(gòu)建驚人的AI SoC”。它由Synopsys產(chǎn)品營銷經(jīng)理Ron Lowman撰寫,最初出現(xiàn)在EETimes上。
依靠傳統(tǒng)的設(shè)計流程將不會產(chǎn)生每個公司都追求的高性能,市場領(lǐng)先的AI解決方案。設(shè)計人員必須考慮各種各樣的半導體解決方案。一個Semico公司2018市場報告中指出,“對于訓練和推理架構(gòu)正在不斷地改進,在最佳配置,提供表演權(quán)水平到達?!?/p>
數(shù)據(jù)中心架構(gòu)包括GPU,FPGA,ASIC,CPU,加速器和高性能計算(HPC)解決方案,而移動市場則是諸如ISP,DSP,多核應(yīng)用處理器,音頻之類的異構(gòu)片上處理解決方案的大雜燴。和傳感器處理子系統(tǒng)。這些異構(gòu)解決方案可通過專有的SDK有效利用,以適應(yīng)AI和深度學習功能。此外,基于預期的自主能力,汽車市場將出現(xiàn)巨大變化。例如,可以預料,第5級自治SoC的帶寬和計算能力比第2級以上自治SoC支持的性能要高得多。
這些AI設(shè)計中的三個始終如一的挑戰(zhàn)包括:
添加專門的處理功能,可以更高效地執(zhí)行必要的數(shù)學運算,例如矩陣乘法和點積
高效的內(nèi)存訪問,用于處理深度學習所需的唯一系數(shù)(例如權(quán)重和激活)
可靠的,經(jīng)過驗證的實時接口,用于芯片到芯片,芯片到云,傳感器數(shù)據(jù)以及加速器到主機的連接
機器學習算法的最大障礙之一是傳統(tǒng)SoC架構(gòu)的內(nèi)存訪問和處理能力沒有達到所需的效率。例如,人們批評流行的馮·諾依曼(von Neumann)架構(gòu)對AI不夠有效,導致人們爭相開發(fā)更好的機器(即SoC系統(tǒng)設(shè)計)。
那些幸運地設(shè)計出第二代和第三代針對AI的SoC的人已經(jīng)添加了更高效的AI硬件加速器,并且/或者選擇為現(xiàn)有ISP和DSP添加功能以適應(yīng)神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn)。
但是,僅添加高效的矩陣乘法加速器或高帶寬內(nèi)存接口已被證明是有幫助的,但不足以成為AI的市場領(lǐng)導者,從而強化了在特定于AI的系統(tǒng)設(shè)計期間進行特定優(yōu)化的概念。
機器學習和深度學習適用于各種各樣的應(yīng)用程序,因此設(shè)計人員在定義特定硬件實現(xiàn)目標的方式上千差萬別。另外,機器學習數(shù)學的進步正在迅速變化,這使體系結(jié)構(gòu)靈活性成為一個強烈的要求。對于垂直整合的公司,他們可以將設(shè)計范圍縮小到特定目的,增加優(yōu)化程度,但也可以靈活地匹配其他不斷發(fā)展的算法。
最后,如《林利微處理器報告》(Linley Microprocessor Report)的“AI基準仍然不成熟”所述,跨AI算法和芯片的基準測試仍處于起步階段:
“幾個流行的基準測試程序評估CPU和圖形性能,但是即使AI工作負載變得越來越普遍,比較AI性能仍然是一個挑戰(zhàn)。許多芯片供應(yīng)商僅引用每秒浮點運算的峰值執(zhí)行速率,或者對于僅整數(shù)設(shè)計而言,每秒引用的峰值執(zhí)行速率。但是,像CPU一樣,由于軟件,內(nèi)存或設(shè)計中的其他部分存在瓶頸,深度學習加速器(DLA)的工作性能通常遠低于其峰值理論性能。每個人都同意在運行實際應(yīng)用程序時應(yīng)該衡量性能,但是他們在什么應(yīng)用程序以及如何運行它們上存在分歧?!保?019年1月)
有趣的新基準開始針對特定市場。例如,MLPerf目前正在提高培訓AI SoC的有效性,并計劃進行擴展。盡管這是應(yīng)對基準測試挑戰(zhàn)的一個很好的開始,但培訓AI SoC只是影響系統(tǒng)結(jié)果的許多不同市場,算法,框架和壓縮技術(shù)的一小部分。
另一個組織AI-Benchmark致力于基準測試手機的AI功能。移動電話使用少數(shù)芯片組,其中一些芯片組的早期版本除了傳統(tǒng)處理器外不包含任何AI加速功能,而是實現(xiàn)了AI專用軟件開發(fā)套件(SDK)。這些基準表明,利用現(xiàn)有的非AI優(yōu)化處理解決方案無法提供所需的吞吐量。
所選的處理器或處理器陣列通常具有每秒最大的操作額定值或特定處理技術(shù)的特定最高頻率。處理器性能還取決于每個指令的能力。另一方面,接口IP(PCIe?,MIPI,DDR)和基礎(chǔ)IP(邏輯庫,內(nèi)存編譯器)具有最大的理論內(nèi)存帶寬和數(shù)據(jù)吞吐量級別,在接口IP的情況下,通常由標準組織定義。
但是,系統(tǒng)的真正性能不是這些部分的總和。它具有將處理器,內(nèi)存接口和數(shù)據(jù)管道正確連接在一起的能力。系統(tǒng)整體性能是每個集成組件的功能以及如何優(yōu)化這些功能的結(jié)果。
設(shè)計人員在AI SoC的處理器,SDK,數(shù)學和其他有助于設(shè)計的方面取得了飛速發(fā)展的同時,這些變化使得難以進行逐個比較的能力。
編輯:hfy
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5066瀏覽量
73058 -
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274263 -
機器學習
+關(guān)注
關(guān)注
66文章
8481瀏覽量
133866 -
AI算法
+關(guān)注
關(guān)注
0文章
259瀏覽量
12538
發(fā)布評論請先 登錄
相關(guān)推薦
不可忽視!四層PCB打樣設(shè)計中的關(guān)鍵細節(jié)大盤點!
Linux系統(tǒng)中最重要的三個命令
動態(tài)無功補償?shù)?b class='flag-5'>三個必要條件

簡述光刻工藝的三個主要步驟
基本理想電路元件的三個特征是什么
對稱三相電壓的特點是哪三個方面
可調(diào)變阻器三個引腳怎么區(qū)分
可調(diào)電阻三個腳各是什么
如何分別場效應(yīng)管的三個極
微波測量的三個基本參量是什么
如何判斷三極管的三個極性
人工智能芯片在先進封裝面臨的三個關(guān)鍵挑戰(zhàn)

評論