精品久久不卡一本,强奸虐待色免费观看视频,午夜国产激情福利网站

SoC 中不斷添加處理核心，但它們不會都得到充分利用，因為真正的瓶頸沒有得到解決。

SoC 需要處理的數(shù)據(jù)量激增，雖然處理核心本身可以處理這些數(shù)據(jù)，但內(nèi)存和通信帶寬成為瓶頸。現(xiàn)在的問題是可以采取什么措施解決這個問題。

內(nèi)存和 CPU 帶寬之間的差距（即所謂的內(nèi)存墻）不是一個新問題，還在繼續(xù)惡化。

早在 2016 年，德克薩斯州高級計算中心的研究科學家 John McCalpin 就發(fā)表了一次演講，研究了高性能計算 (HPC) 的內(nèi)存帶寬和系統(tǒng)資源之間的平衡。他分析了當時排名前 500 的機器，并剖析了它們的核心性能、內(nèi)存帶寬、內(nèi)存延遲、互連帶寬和互連延遲。他的分析表明，每個插槽的峰值 FLOPS 每年增加 50% 到 60%，而內(nèi)存帶寬每年僅增加約 23%。此外，內(nèi)存延遲每年減少約 4%，互連帶寬和延遲每年增加約 20%。這些表明數(shù)據(jù)移動方面存在持續(xù)且不斷擴大的不平衡。

這意味著，如果我們傳輸數(shù)據(jù)，則每次內(nèi)存?zhèn)鬏斔ㄙM的時間相當于 100 次浮點算術(shù)運算。也就是說，如果無法預取并且錯過了cache，你就失去了執(zhí)行超過 4,000 次浮點運算的機會。

系統(tǒng)性能要素的不平衡。

一個設計良好的系統(tǒng)是平衡的。大多數(shù)人想要的是更有效地使用晶體管，目標每美元的吞吐量和每瓦特的吞吐量將會更高，總之利用率越高越好。

在考慮系統(tǒng)性能時，要么受計算限制，要么受內(nèi)存限制，要么受 I/O 限制。隨著計算速度的加快，需要更加重視內(nèi)存是否能夠跟上計算速度，并且還需要更高的帶寬接口來將傳輸數(shù)據(jù)。

但業(yè)界對處理性能非常著迷。實際上，計算單元很重要，但它們通常不是實際系統(tǒng)速度的限制因素。系統(tǒng)速度和工作負載強相關(guān)，它取決于數(shù)據(jù)從某個地方來、以某種方式處理并發(fā)送到數(shù)據(jù)被需要的地方有多快，并受到沿途亂七八糟事情的干擾。

這意味著不可能構(gòu)建一個適合所有任務的最佳系統(tǒng)。關(guān)鍵是要確保其均衡性良好，并且在任何區(qū)域都不會過度配置。

移動數(shù)據(jù)

移動數(shù)據(jù)肯定會影響系統(tǒng)性能，也與功耗有關(guān)，因為移動一段數(shù)據(jù)比對其執(zhí)行計算消耗的功耗高幾個數(shù)量級。完成一項任務，一般意味著將數(shù)據(jù)通過外部接口移入內(nèi)存，從內(nèi)存到CPU，中間結(jié)果在內(nèi)存和CPU之間來回切換，最后結(jié)果通過外部接口推回。

無論你的計算速度有多快，或者你的內(nèi)存陣列有多大，最終決定芯片和系統(tǒng)性能的是連接兩者的總線帶寬。這就是最大的瓶頸所在，不僅僅是總線，還有高速接口，它們都為解決數(shù)據(jù)訪問瓶頸做出了自己的努力。

有效的內(nèi)存帶寬的提升是cache的采用。假設大多數(shù)內(nèi)存訪問來自cache而不是主存，這有效地使數(shù)據(jù)更接近處理器，并減少延遲。處理器性能的提高如此之快，主要是通過核心數(shù)量的快速增加。然而，cache性能一直在下降，這是導致延遲增加的主要原因之一。即使 HBM 的引入也未能扭轉(zhuǎn)這一趨勢。cache性能的降低是因為cache設計變得越來越復雜，特別是隨著更多核心保持cache coherent，并且多級cache串行l(wèi)ookup以節(jié)省功耗。

另一種選擇是將計算移至更靠近內(nèi)存的位置。in-memory computing的時代才剛剛開始，這可以通過三種方式實現(xiàn)。

1、通常，由于 DRAM 制造的經(jīng)濟性，我們不會在 DRAM 芯片上看到很多復雜的邏輯。我們可能會看到少量非常具體的函數(shù)被添加到這些芯片中，例如累加或乘累加函數(shù)，這在許多 DSP 和 AI 算法中很常見。

2、第二種可能是像 CXL.mem 這樣的技術(shù)，在這種技術(shù)中，將計算功能添加到控制內(nèi)存陣列的邏輯芯片中是非常可行的。從技術(shù)上講，這是在內(nèi)存附近處理而不是在內(nèi)存中處理。

3、第三個介于兩者之間。對于某些堆疊式存儲器（例如 HBM），通常有一個邏輯芯片與 DRAM 共同封裝在同一堆疊中，并且該邏輯芯片是面向 CPU 和 DRAM 設備的總線之間的接口。該邏輯芯片為邏輯芯片上的中低復雜度處理元件提供了空間。

HBM 的成功無疑幫助普及了chiplets的概念，曾經(jīng)受到光罩限制或產(chǎn)量限制的芯片現(xiàn)在可以在多個chiplets上制造并集成到一個封裝中。然而，現(xiàn)在需要的芯片間連接解決方案可能比單個芯片上的連接解決方案慢。當公司將芯片分割成多個同質(zhì)芯片時，希望在分割芯片上執(zhí)行相同的操作，又不會降低性能或準確性。

實際上，這些chiplets是在系統(tǒng)環(huán)境中設計的，不僅僅是之前那樣的存儲器或控制器設計。封裝中的 IC 會引入其自身的寄生效應，因此你需要將其視為一個系統(tǒng)，并查看眼圖，看看如何根據(jù)系統(tǒng)的運行條件，信號的來源和接收方，對其進行優(yōu)化，從而大幅增加帶寬并減少延遲。這些目的決定了接口和協(xié)議。USB、SATA、PCIe、CXL、DDR、HMC、AXUI、MIPI，這些不勝枚舉的協(xié)議都需要接口，業(yè)內(nèi)正在創(chuàng)建更新的協(xié)議，并且需要新的接收器來實現(xiàn)這些芯片到芯片的連接。

multi-die系統(tǒng)的一大優(yōu)勢是可用連接的數(shù)量變得更多。從 I/O 的角度來看，我們曾經(jīng)擁有 1,024 位總線，然后我們轉(zhuǎn)向串行接口。但最近發(fā)生的情況是，那些串行接口現(xiàn)在已經(jīng)變成并行接口，例如 x32 PCIe，它由 32 通道超高速串行連接組成。

工作負載

如前所述，系統(tǒng)性能和工作負載強相關(guān)。不可能制造針對所有情況優(yōu)化的通用機器。找到PPA平衡迫使人們重新思考和定制芯片。

像人工智能這樣的任務也存在著不同的工作負載。如果你觀察人工智能，就會發(fā)現(xiàn)它有兩個方面。一個是訓練，在訓練中你需要不斷地訪問內(nèi)存，因為權(quán)重就在那里。而且你會不斷改變權(quán)重，此時內(nèi)存訪問是關(guān)鍵。然而，如果你看推理，模型已經(jīng)訓練好了，你所要做的就是 MAC 操作，沒有訪問內(nèi)存去改變權(quán)重。

尋找適當?shù)钠胶庑枰捎脜f(xié)同設計方法。在架構(gòu)階段，需要評估芯片的各種場景，關(guān)注芯片內(nèi)以及芯片外的吞吐量和帶寬。另一方面，物理設計團隊必須找出芯片的最佳尺寸。由于產(chǎn)量和功率的原因，它不能太大，更不能太小。然后設計團隊必須為他們構(gòu)建接口和協(xié)議。架構(gòu)團隊、物理設計團隊和設計團隊不斷地進行三方戰(zhàn)斗，以找到讓每個人都滿意的最佳點。當然，少不了驗證這個守門員。

計算范式

對于某些問題，使用傳統(tǒng)軟件可能會導致解決方案效率低下。這發(fā)生在從單核到多核的過渡以及 GPGPU 的采用期間。業(yè)界正在等待新一代人工智能硬件的實現(xiàn)。GPU 可以進行大規(guī)模并行計算，除了渲染形狀之外還可以做各種事情。

結(jié)論

添加更多或更快的處理核心固然很棒，但除非你能讓它們保持忙碌，否則就是在浪費時間、金錢和電力。

隨著 DRAM 遷移到封裝中，預計潛在帶寬將持續(xù)增加，但 DRAM 性能在過去 20 年里始終沒有跟上處理器，那么業(yè)界將不得不通過自身架構(gòu)來解決這個問題。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴