一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英特爾架構(gòu)的軟硬件協(xié)作的優(yōu)勢(shì)

英特爾中國(guó) ? 來(lái)源:英特爾中國(guó) ? 作者:英特爾中國(guó) ? 2022-10-17 17:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概述

由 DeepMind 在 2021 年發(fā)布的 AlphaFold2,憑借自身在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上的高可信度,以及遠(yuǎn)優(yōu)于傳統(tǒng)實(shí)驗(yàn)方法的效率和成本表現(xiàn),樹起了一座“AI for Science”的全新里程碑。它不僅在生命科學(xué)領(lǐng)域掀起了顛覆式的革新,也成為了 AI 在生物學(xué)、醫(yī)學(xué)和藥學(xué)等領(lǐng)域落地的核心發(fā)力點(diǎn)。

隨著各類 AlphaFold2 項(xiàng)目在產(chǎn)、學(xué)、研各細(xì)分領(lǐng)域中的啟動(dòng)與落地,其技術(shù)管線對(duì)于推理的高通量和高性能的需求也是與日劇增。一直活躍在“AI for Science”創(chuàng)新前沿的英特爾結(jié)合自身優(yōu)勢(shì),以內(nèi)置 AI 加速能力的產(chǎn)品技術(shù),特別是至強(qiáng) 可擴(kuò)展平臺(tái)為硬件基座,對(duì) AlphaFold2 實(shí)施了端到端的高通量?jī)?yōu)化,并在實(shí)踐中實(shí)現(xiàn)了比專用 AI 加速芯片更為出色的表現(xiàn)—累計(jì)通量提升可達(dá)優(yōu)化前的 23.11 倍1。

如此顯著的優(yōu)化成效,基于英特爾 架構(gòu)的軟硬件協(xié)作功不可沒:

硬件支撐:英特爾 至強(qiáng) 可擴(kuò)展平臺(tái)的核心產(chǎn)品和技術(shù)特性,例如第三代英特爾 至強(qiáng) 可擴(kuò)展處理器在算力輸出上的出色表現(xiàn),及其內(nèi)置的 AI 加速技術(shù),如英特爾 高級(jí)矢量擴(kuò)展 512(英特爾 AVX-512)等技術(shù)帶來(lái)的并行計(jì)算優(yōu)化,還有英特爾 傲騰 持久內(nèi)存對(duì)“內(nèi)存墻”障礙的突破,及這一突破對(duì)長(zhǎng)序列高通量的并行推理優(yōu)化的強(qiáng)力支持;

軟件加成:軟件是充分利用或釋放硬件加速潛能的“鑰匙”,例如在模型推理階段,序列長(zhǎng)度為 n 的情況下,推理時(shí)間復(fù)雜度為 O (n2),此時(shí)原始 AlphaFold2 在 CPU 上的推理時(shí)長(zhǎng)是難以接受的。英特爾為此采取了一系列軟件調(diào)優(yōu)舉措,包括對(duì)注意力模塊(attention unit)開展大張量切分(tensor slicing),以及使用英特爾 oneAPI 工具套件實(shí)施算子融合等優(yōu)化方法,解決了 AlphaFold2 在 CPU 平臺(tái)上面臨的計(jì)算效率低和處理器利用率不足等難題,同時(shí)也緩解了調(diào)優(yōu)方案執(zhí)行各環(huán)節(jié)中面臨的內(nèi)存瓶頸等問題。

dff167e8-4bc6-11ed-a3b6-dac502259ad0.png

圖一 基于英特爾 至強(qiáng) 可擴(kuò)展平臺(tái)的

AlphaFold2推理優(yōu)化路線圖及其實(shí)現(xiàn)的性能提升2

本文的核心任務(wù),就是要介紹上述基于英特爾 架構(gòu)、致力于在 CPU 平臺(tái)上加速 AI 應(yīng)用的軟硬件產(chǎn)品技術(shù)組合在 AlphaFold2 端到端優(yōu)化中扮演的關(guān)鍵角色,并詳細(xì)分享對(duì)它們進(jìn)行配置、調(diào)優(yōu)以求持續(xù)提升 AlphaFold2 應(yīng)用性能表現(xiàn)的核心經(jīng)驗(yàn)和技巧,從而為所有計(jì)劃開展或正在推進(jìn)類似探索、實(shí)踐的合作伙伴及最終用戶們提供一些關(guān)鍵的參考和建議,讓整個(gè)產(chǎn)業(yè)界能夠進(jìn)一步加速相關(guān)應(yīng)用的落地并盡可能提升其收益。

蛋白質(zhì)結(jié)構(gòu)解析任務(wù)繁重,

AlphaFold2 生逢其時(shí)

如生物學(xué)中心法則(Central Dogma)所揭示的,脫氧核糖核酸(DNA)、核糖核酸(RNA)和蛋白質(zhì)(包括多肽、氨基酸)之間“轉(zhuǎn)錄-翻譯”的關(guān)系,清晰呈現(xiàn)了有機(jī)體內(nèi)的信息傳遞路徑,也讓人們認(rèn)識(shí)到:對(duì)蛋白質(zhì)三維結(jié)構(gòu)開展有效解析與預(yù)測(cè),就能對(duì)有機(jī)體的構(gòu)成,及其運(yùn)行和變化的規(guī)律實(shí)施更深層次的詮釋和探究,進(jìn)而可為生物學(xué)、醫(yī)學(xué)、藥學(xué)乃至農(nóng)業(yè)、畜牧業(yè)等行業(yè)和領(lǐng)域的未來(lái)研究與發(fā)展提供高質(zhì)量的生物學(xué)假設(shè)。

e019a2e4-4bc6-11ed-a3b6-dac502259ad0.png

圖二 生物學(xué)中心法則

雖然許多基于傳統(tǒng)實(shí)驗(yàn)方法的蛋白質(zhì)結(jié)構(gòu)解析工具,包括 X-射線晶體衍射、冷凍電鏡、核磁共振等已獲普遍運(yùn)用,但通過傳統(tǒng)實(shí)驗(yàn)方法進(jìn)行結(jié)構(gòu)解析的速度,遠(yuǎn)趕不上氨基酸序列的增加速度,這就造成海量待測(cè)樣品/序列可能會(huì)在實(shí)驗(yàn)室中等待數(shù)月乃至數(shù)年才能得到解析。以UniProtKB/Swiss-Prot 數(shù)據(jù)庫(kù)搜集和整理的數(shù)據(jù)為例,單從實(shí)驗(yàn)獲得的已知蛋白序列就已高達(dá) 57 萬(wàn)條之多4。

AI 技術(shù)的高速發(fā)展,則為破解上述效率問題提供了新的思路--人們開始將深度學(xué)習(xí)等方法運(yùn)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),其中由 DeepMind 在 2020 年 CASP 145上提出的 AlphaFold2 方案尤其令人矚目,它以驚人的 92.4 分(GDT_TS 分?jǐn)?shù))的表現(xiàn)實(shí)現(xiàn)了原子級(jí)別的預(yù)測(cè)精度,被認(rèn)為“已可替代傳統(tǒng)實(shí)驗(yàn)方法”6。

AlphaFold2 端到端預(yù)測(cè):

三個(gè)階段協(xié)作增效

與以往多是間接預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的 AI 方法不同,AlphaFold2 提供了完整的端到端蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)流程。如圖三所示,其工作流程大致可分為預(yù)處理(Preprocessing)、深度學(xué)習(xí)模型推理(DL Model Inference)以及后處理(Postprocessing)三個(gè)階段,各階段執(zhí)行的功能如下:

e04a7c8e-4bc6-11ed-a3b6-dac502259ad0.png

圖三 AlphaFold2 基本架構(gòu)

預(yù)處理:由于初始輸入的氨基酸序列所含信息往往較少,因此 AlphaFold2 在預(yù)處理階段會(huì)先利用已知信息(包括蛋白質(zhì)序列、結(jié)構(gòu)模板)來(lái)提升預(yù)測(cè)精度。包括借助一些蛋白質(zhì)搜索工具在特定序列數(shù)據(jù)庫(kù)中使用多序列比對(duì)(MSA)方法,以及在特定結(jié)構(gòu)數(shù)據(jù)庫(kù)中進(jìn)行模板搜索,從而獲得不同蛋白質(zhì)之間的共有進(jìn)化信息;

深度學(xué)習(xí)模型推理:在該階段中,AlphaFold2 首先會(huì)借助嵌入(Embedding)過程,將來(lái)自預(yù)處理階段的模板 MSA 信息、MSA 和目標(biāo)構(gòu)成 MSA 表征(MSA representation)的三維張量,同時(shí)也將模板鄰接信息和額外的 MSA 構(gòu)成鄰接表征(pair representation)的三維張量,隨后兩種表征信息會(huì)通過一個(gè)由 48 個(gè)塊(Block)組成的 Evoformer 網(wǎng)絡(luò)進(jìn)行表征融合。在這一進(jìn)程中,模型將通過一種 Self-Attention 機(jī)制來(lái)學(xué)習(xí)蛋白質(zhì)的三角幾何約束信息,并讓兩種表征信息相互影響來(lái)使模型推理出相應(yīng)的三維結(jié)構(gòu),且循環(huán)三次;

后處理:這一階段,AlphaFold2 將使用 Amber 力場(chǎng)分析方法對(duì)獲得的三維結(jié)構(gòu)參數(shù)優(yōu)化,并輸出最終的蛋白質(zhì)三維結(jié)構(gòu)。

AlphaFold2 在預(yù)測(cè)精度上取得的優(yōu)勢(shì),源于四點(diǎn)全新的設(shè)計(jì)思路:

●在預(yù)處理階段通過 MSA 方法等,將模板蛋白質(zhì)結(jié)構(gòu)和序列保守性信息融入預(yù)測(cè)特征;

● 在特征嵌入階段,將保守性最高的 MSA 特征單獨(dú)取出,壓縮其余的 Extra MSA,并與模板特征交互;

●在模型推理階段,采用獨(dú)特的雙軌注意力模塊和深層 Transformer 架構(gòu),并引入循環(huán)回收機(jī)制;

●在結(jié)構(gòu)網(wǎng)絡(luò)層引入不變點(diǎn)注意力(Invariant Point Attention)機(jī)制。但這也意味著 AlphaFold2 從執(zhí)行之初,直至整個(gè)推理過程都需要面對(duì)高通量的計(jì)算壓力。

五大步驟:至強(qiáng) 可擴(kuò)展平臺(tái)

助 AlphaFold2 實(shí)現(xiàn)端到端優(yōu)化

隨著越來(lái)越多的科研機(jī)構(gòu)、實(shí)驗(yàn)室和企業(yè)開始借助 AlphaFold2 進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),各行業(yè)和領(lǐng)域內(nèi)的使用者也開始遇到越來(lái)越多、也漸趨嚴(yán)峻的挑戰(zhàn)。例如結(jié)構(gòu)預(yù)測(cè)各環(huán)節(jié)面臨著龐大的計(jì)算量,使用者需要更加充分地挖掘硬件的計(jì)算潛力來(lái)提升執(zhí)行效率;為縮短結(jié)構(gòu)預(yù)測(cè)時(shí)間,他們還需要利用更多計(jì)算節(jié)點(diǎn)來(lái)構(gòu)建效率更高的并行計(jì)算方案等。

基于第三代英特爾至強(qiáng)可擴(kuò)展平臺(tái)提供的內(nèi)置 AI 加速能力,對(duì)于運(yùn)算和存儲(chǔ)性能的均衡設(shè)計(jì),以及對(duì)硬件和軟件協(xié)同優(yōu)化能力的兼顧,英特爾著手對(duì) AlphaFold2 進(jìn)行了端到端的全面優(yōu)化,以幫助生物學(xué)等領(lǐng)域的使用者們應(yīng)對(duì)以上挑戰(zhàn)。針對(duì) AlphaFold2 的設(shè)計(jì)特點(diǎn),該優(yōu)化方案主要聚焦在預(yù)處理和模型推理兩個(gè)層面,并可基本劃分為以下五個(gè)步驟。

第一步:預(yù)處理階段-高通量?jī)?yōu)化

預(yù)處理階段的高通量計(jì)算需求,使方案在執(zhí)行時(shí)面臨非常明顯的并行計(jì)算壓力。借助第三代英特爾 至強(qiáng) 可擴(kuò)展處理器的多核優(yōu)勢(shì)及其內(nèi)置的英特爾 AVX-512 技術(shù),方案能夠?qū)崿F(xiàn)針對(duì)預(yù)處理階段的高通量?jī)?yōu)化。

如前文所述,AlphaFold2 會(huì)在預(yù)處理階段對(duì)特定序列數(shù)據(jù)庫(kù)和結(jié)構(gòu)數(shù)據(jù)庫(kù)中的已知序列/模板信息進(jìn)行搜索,包括使用 jackhammer 等蛋白質(zhì)搜索工具來(lái)執(zhí)行 MSA 方法,即從數(shù)據(jù)庫(kù)中抽取和輸入與氨基酸序列相近的序列并進(jìn)行對(duì)齊的過程,其目的是找出同源的序列/模板組成表征信息來(lái)為后續(xù)推理過程提供輸入,由此提高預(yù)測(cè)精度。

這一過程中,計(jì)算平臺(tái)需要執(zhí)行大量的向量/矩陣運(yùn)算。以模板搜索為例,其本質(zhì)為計(jì)算兩個(gè)隱馬爾可夫模型(Hidden Markov Model,HMM)間的距離。當(dāng)輸入的氨基酸序列很長(zhǎng)(例如執(zhí)行中輸入長(zhǎng)度達(dá)數(shù)百的氨基酸序列)且需并行執(zhí)行大量實(shí)例時(shí),如果無(wú)法讓處理器的算力“火力全開”去提升平臺(tái)的并行計(jì)算效率,那么整個(gè)預(yù)處理過程的效率就會(huì)變得乏善可陳。

在實(shí)踐中,第三代英特爾 至強(qiáng) 可擴(kuò)展處理器一方面能憑借出色的微架構(gòu)設(shè)計(jì),尤其是多核心、多線程和大容量高速緩存,來(lái)保證 AlphaFold2 獲得充足的總體算力,以滿足整個(gè)結(jié)構(gòu)預(yù)測(cè)過程所需;另一方面,其內(nèi)置的英特爾 AVX-512 及其支持的 NUMA (Non-Uniform Memory Access,非一致存儲(chǔ)訪問) 架構(gòu)等技術(shù),也為方案提供了更進(jìn)一步的性能調(diào)優(yōu)空間。

針對(duì)序列/模板搜索所需的大量向量/矩陣運(yùn)算需求,英特爾 AVX-512 技術(shù),能以顯著的高位寬優(yōu)勢(shì)(最大可提供 512 位向量計(jì)算能力)來(lái)提升計(jì)算過程中的向量化并行程度,從而有效提升向量/矩陣運(yùn)算效率。這一步在需要配備上述硬件平臺(tái)的同時(shí),在 icc 編譯器中做如下設(shè)置(該設(shè)定支持所有英特爾 至強(qiáng) 可擴(kuò)展處理器,不僅限于代號(hào)為 Ice Lake 的第三代英特爾 至強(qiáng) 可擴(kuò)展處理器):

e09dd8e8-4bc6-11ed-a3b6-dac502259ad0.png

第二步:模型推理階段-將深度學(xué)習(xí)模型

遷移至面向英特爾 架構(gòu)優(yōu)化的 PyTorch

原始版本的 AlphaFold2 是基于 DeepMind 的 JAX 和 haiku-API 做的網(wǎng)絡(luò)實(shí)現(xiàn),但目前 JAX 上還沒有面向英特爾 架構(gòu)平臺(tái)的優(yōu)化工具。而 PyTorch 擁有良好的動(dòng)態(tài)圖糾錯(cuò)方法,與 haiku-API 有著相似的風(fēng)格,并可以采用面向 PyTorch 的英特爾 擴(kuò)展優(yōu)化框架(Intel Extensions for PyTorch,IPEX,可由英特爾 oneAPI AI 工具套件提供)。為實(shí)現(xiàn)更好的優(yōu)化效果,方案選擇將深度學(xué)習(xí)模型遷移至面向英特爾 架構(gòu)優(yōu)化的PyTorch,并最終逐模塊地從 JAX/haiku 上完成了代碼遷移。

第三步:模型推理階段-PyTorch JIT

為提高模型的推理速度,便于利用 IPEX 的算子融合等加速手段,優(yōu)化方案中還對(duì)遷移后的代碼進(jìn)行了一系列的 API 改造,在不改變網(wǎng)絡(luò)拓?fù)涞那疤嵯?,引?PyTorch Just-In-Time (JIT) 圖編譯技術(shù),將網(wǎng)絡(luò)最終轉(zhuǎn)化為靜態(tài)圖。

第四步:模型推理階段-

切分 Attention 模塊和算子融合

AlphaFold2 的嵌入過程是構(gòu)成 MSA 表征張量和鄰接表征張量來(lái)作為 Evoformer 網(wǎng)絡(luò)輸入的關(guān)鍵步驟。從其算法設(shè)計(jì)可以獲知,其注意力模塊中包含了大量的偏移量(bias)計(jì)算。

這種偏移量計(jì)算是通過張量間的矩陣運(yùn)算來(lái)完成的,因此運(yùn)算過程中會(huì)伴隨張量的擴(kuò)張。當(dāng)張量達(dá)到一定規(guī)模后,擴(kuò)張過程對(duì)內(nèi)存容量的需求就會(huì)變得巨大。以一個(gè)“5120 x 1 x 1 x 64”的張量為例,其初始內(nèi)存需求為 1.25MB,但在擴(kuò)張過程中,對(duì)內(nèi)存容量的需求卻可達(dá) 930MB。

這就使 AlphaFold2 在嵌入過程中面臨兩個(gè)問題:一方面是巨大的內(nèi)存峰值壓力,其需求量會(huì)使內(nèi)存資源在短時(shí)間耗盡,尤其是內(nèi)存峰值在相互疊加之后,進(jìn)而可能造成推理任務(wù)的失?。涣硪环矫?,大張量運(yùn)算所需的海量?jī)?nèi)存也會(huì)帶來(lái)不可忽略的內(nèi)存分配過程,從而增加執(zhí)行耗時(shí)。

為此,英特爾提出了”對(duì)注意力模塊進(jìn)行大張量切分”的優(yōu)化思路,即,將大張量切分為多個(gè)較小的張量,來(lái)降低擴(kuò)張中的內(nèi)存需求。例如將上述“5120 x 1 x 1 x 64”的張量切分為“320 x 1 x 1 x 64”后,其擴(kuò)張所需的內(nèi)存就由 930MB 降至 59.69MB,僅為未進(jìn)行張量切分時(shí)的 6.4% 左右,有效消減了內(nèi)存峰值壓力。相關(guān)代碼示例如下:

e0b8d350-4bc6-11ed-a3b6-dac502259ad0.png

英特爾發(fā)現(xiàn),利用 PyTorch 自帶的 Profiler 對(duì) AlphaFold2 的 Evoformer 網(wǎng)絡(luò)進(jìn)行算子跟蹤分析時(shí), Einsum 和 Add 這兩種算子占用了大部分的算力資源。因此,英特爾就考慮使用 IPEX(建議版本為 IPEX-1.10.100 或更高)提供的算子融合能力來(lái)實(shí)現(xiàn)上述兩種計(jì)算過程的融合。

e0da5156-4bc6-11ed-a3b6-dac502259ad0.png

圖四 Evoformer 模塊的熱點(diǎn)算子

傳統(tǒng)的深度學(xué)習(xí)計(jì)算過程都是逐一操作:例如 Einsum 計(jì)算過程結(jié)束后,函數(shù)返回值需要在 Python 進(jìn)程中建立一個(gè)臨時(shí)緩存,然后通過調(diào)用 Add 算子,再次進(jìn)入 oneDNN 完成第二個(gè)函數(shù)的運(yùn)算,這中間來(lái)回折返的過程時(shí)間消耗不可忽略。如圖五所示,算子融合帶來(lái)的優(yōu)勢(shì)就在于,在前一操作結(jié)束后可以馬上執(zhí)行后一操作,節(jié)省了中間建立臨時(shí)緩存數(shù)據(jù)結(jié)構(gòu)的時(shí)間。同時(shí)從時(shí)間軸上不難看出,經(jīng)過融合后,兩個(gè)連續(xù)的算子合并為一個(gè),用時(shí)也顯著縮短。

e177276a-4bc6-11ed-a3b6-dac502259ad0.png

圖五 算子 Einsum+Add 融合效果圖

第五步:模型推理階段-

破解多實(shí)例運(yùn)算過程中的計(jì)算和內(nèi)存瓶頸

為了讓推理性能在多實(shí)例進(jìn)程中獲得更接近線性的增長(zhǎng)表現(xiàn),優(yōu)化方案也借助英特爾 至強(qiáng) 可擴(kuò)展平臺(tái)提供的高效且更為均衡的計(jì)算和存儲(chǔ)優(yōu)勢(shì)實(shí)施了有針對(duì)性的優(yōu)化。

e19d075a-4bc6-11ed-a3b6-dac502259ad0.png

圖六 英特爾 至強(qiáng) 可擴(kuò)展處理器提供多核并行算力輸出

方案首先是借助基于 NUMA 架構(gòu)的核心綁定技術(shù),來(lái)充分挖掘至強(qiáng) 可擴(kuò)展處理器的多核心優(yōu)勢(shì)。如圖六所示,這一技術(shù)可對(duì)處理器節(jié)點(diǎn)以及訪問本地內(nèi)存進(jìn)程予以精確控制,讓每個(gè)推理工作負(fù)載都能穩(wěn)定地在同一組核心上執(zhí)行,并優(yōu)先訪問對(duì)應(yīng)的近端內(nèi)存,從而提供更優(yōu)、也更穩(wěn)定的并行算力輸出。在執(zhí)行中可使用以下 numactl 指令:

e1c40be8-4bc6-11ed-a3b6-dac502259ad0.png

得益于英特爾 至強(qiáng) 可擴(kuò)展處理器在微架構(gòu)設(shè)計(jì)上的優(yōu)勢(shì),物理核與物理核之間的數(shù)據(jù)通信平均延時(shí)較短,每個(gè) NUMA 在并行計(jì)算中的工作效率也會(huì)更高。

同時(shí),在大規(guī)模服務(wù)器集群上開展多實(shí)例并行推理計(jì)算時(shí),節(jié)點(diǎn)間的數(shù)據(jù)交互量會(huì)呈平方增長(zhǎng),導(dǎo)致大量占用通信帶寬并損失計(jì)算效率。英特爾 MPI 庫(kù)的引入,能針對(duì)并行計(jì)算的需求進(jìn)行自動(dòng)調(diào)整,幫助方案實(shí)現(xiàn)更優(yōu)的時(shí)延、帶寬和可擴(kuò)展性。方案中可以加入以下優(yōu)化指令:

e1e2effe-4bc6-11ed-a3b6-dac502259ad0.png

在開展并行多實(shí)例計(jì)算優(yōu)化之外,英特爾還注意到,內(nèi)存的容量限制,或者說瓶頸是限制 AlphaFold2 發(fā)揮潛能的另一個(gè)重要因素。通過對(duì)算法架構(gòu)的解析可知,AlphaFold2 中大量的矩陣運(yùn)算過程都需要大容量?jī)?nèi)存予以支撐。其最大輸入序列長(zhǎng)度越長(zhǎng),計(jì)算中所需的內(nèi)存也就越大。而在并行計(jì)算能力得到有效優(yōu)化后,更多計(jì)算實(shí)例的加入也會(huì)進(jìn)一步突顯內(nèi)存瓶頸問題。

受限于產(chǎn)品規(guī)格、主板架構(gòu)和成本,僅使用傳統(tǒng) DRAM(Dynamic Random Access Memory,動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)內(nèi)存很難實(shí)現(xiàn) TB 級(jí)的大容量部署。英特爾傲騰持久內(nèi)存方案則是破解這一難題的有效途徑,基于創(chuàng)新的存儲(chǔ)介質(zhì),這一產(chǎn)品能為方案提供大容量和高性價(jià)比的內(nèi)存支撐。

如圖七所描繪的,在面向不同蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)工作中,序列長(zhǎng)度越長(zhǎng),推理計(jì)算復(fù)雜度就越大。結(jié)合更多的并行計(jì)算,所需的內(nèi)存容量也就越高。如果用“星際探索”來(lái)比喻這種趨勢(shì),那么:

●對(duì) 3GEH 蛋白的結(jié)構(gòu)預(yù)測(cè)就相當(dāng)于探索地球

●而對(duì)某病毒相關(guān)的刺突(Spike)蛋白的結(jié)構(gòu)預(yù)測(cè)就相當(dāng)于將探索擴(kuò)大到了整個(gè)太陽(yáng)系;

●對(duì)諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)發(fā)現(xiàn)的 PIEZO2 蛋白結(jié)構(gòu)進(jìn)行預(yù)測(cè)則是進(jìn)一步將探索擴(kuò)展到了銀河系;

●對(duì)低密度脂蛋白受體相關(guān)蛋白 2(LRP2) 的結(jié)構(gòu)預(yù)測(cè),就好比是宇宙級(jí)的探索。

可見,不同的探索范圍,所需耗費(fèi)的資源(內(nèi)存)也全然不同。在實(shí)踐中,進(jìn)行 3GEH 蛋白(長(zhǎng)度為 765aa)的結(jié)構(gòu)預(yù)測(cè),內(nèi)存大小在 100GB 就足以。而對(duì) Spike 蛋白和 PIEZO2 蛋白進(jìn)行預(yù)測(cè)時(shí),由于序列長(zhǎng)度分別達(dá)到了 1200aa 和 2700aa,就需要部署 512GB 范圍的內(nèi)存。而當(dāng)人們對(duì) LRP2 蛋白進(jìn)行結(jié)構(gòu)預(yù)測(cè)時(shí),其 4700aa 的序列長(zhǎng)度要求的內(nèi)存容量就遠(yuǎn)大于 1.3TB。如果 64 個(gè)實(shí)例并行執(zhí)行,內(nèi)存容量的需求就會(huì)沖到一個(gè)令人驚嘆的量級(jí),如果無(wú)法滿足這個(gè)需求,就會(huì)形成阻礙應(yīng)用工作效能發(fā)揮的“內(nèi)存墻”。

e1f6ecde-4bc6-11ed-a3b6-dac502259ad0.png

圖七 大量長(zhǎng)序列結(jié)構(gòu)預(yù)測(cè)都會(huì)遇到“內(nèi)存墻”問題

以英特爾 傲騰 持久內(nèi)存 200 系列為例,其最高可提供 512GB 的單模組容量,在與雙路平臺(tái)的第三代英特爾 至強(qiáng) 可擴(kuò)展處理器搭配后,在提供 3200MT/S 內(nèi)存帶寬的基礎(chǔ)上,理論上可實(shí)現(xiàn)每路高達(dá) 4TB 的英特爾 傲騰 持久內(nèi)存容量配置,以及每路高達(dá) 6TB 的內(nèi)存總?cè)萘浚ㄅc DRAM 內(nèi)存組合使用),足以支撐 AlphaFold2 高密度部署方案。值得一提的是,在提供更大容量的同時(shí),英特爾 傲騰 持久內(nèi)存還能輸出接近 DRAM 內(nèi)存的性能表現(xiàn)。

e23f175c-4bc6-11ed-a3b6-dac502259ad0.png

多個(gè)優(yōu)化步驟實(shí)施后的總體性能表現(xiàn)

基于英特爾至強(qiáng)可擴(kuò)展平臺(tái)開展的 AlphaFold2 端到端優(yōu)化,包括一系列并行計(jì)算能力優(yōu)化舉措和英特爾傲騰持久內(nèi)存產(chǎn)品的引入,使得整個(gè) AlphaFold2 端到端處理過程的性能獲得了質(zhì)的提升。如圖八所示,通過以上的優(yōu)化流程,每個(gè)優(yōu)化步驟獲得的提升累積后,最后相比優(yōu)化前通量提升可達(dá) 23.11 倍7。

e26ae346-4bc6-11ed-a3b6-dac502259ad0.png

圖八 推理過程中多種優(yōu)化措施帶來(lái)的累計(jì)性能提升8

在探索和驗(yàn)證上述端到端 AlphaFold2 優(yōu)化方案、步驟和經(jīng)驗(yàn)的過程中,英特爾扮演的角色并非“獨(dú)行俠”,而是與同在尋求相關(guān)解決方案的,專攻醫(yī)藥和生命科學(xué)研究和創(chuàng)新的產(chǎn)、學(xué)、研領(lǐng)域用戶及合作伙伴們積極開展了廣泛及深入的協(xié)作,這些協(xié)作起到了博采眾長(zhǎng)的效果,也為方案的普適性帶來(lái)了助益。

同樣,在優(yōu)化方案基本定型,并展現(xiàn)了顯著的通量提升效果以及能夠擔(dān)起更長(zhǎng)序列蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)重任的能力后,眾多合作伙伴與用戶也第一時(shí)間參考和借鑒了方案中的方法、經(jīng)驗(yàn)與技巧,并結(jié)合自身特定的環(huán)境、應(yīng)用現(xiàn)狀和需求,開展了實(shí)戰(zhàn)驗(yàn)證和更進(jìn)一步的探索。

總結(jié)與展望

得益于 AI 技術(shù)的高速發(fā)展和演進(jìn),它與科學(xué)前沿研究的結(jié)合正在快速地改變世界并造福人們的生活。以 AlphaFold2 為例,雖然其問世時(shí)間不長(zhǎng),但已經(jīng)有生物學(xué)家將其應(yīng)用到對(duì)抗新型傳染病和其他疾病的研究中,并取得了一定的成果9。

始終走在 AI 應(yīng)用創(chuàng)新與落地一線的英特爾,也在這一過程中借助至強(qiáng)可擴(kuò)展平臺(tái),包括其硬件層面的第三代英特爾至強(qiáng)可擴(kuò)展處理器和英特爾傲騰持久內(nèi)存,以及其軟件層面的英特爾 oneAPI 工具套件等,基于這些軟硬件之間的無(wú)縫組合與高效協(xié)作,以及多樣化的 AI 優(yōu)化方法,為 AlphaFold2 提供了端到端的高通量計(jì)算優(yōu)化方案。

面向未來(lái),英特爾還將繼續(xù)攜手科學(xué)前沿領(lǐng)域的合作伙伴,推進(jìn)更多英特爾產(chǎn)品、技術(shù)與 AlphaFold2 等新技術(shù)開展交互與融合,在更多層面助力和加速“AI +Science”的技術(shù)創(chuàng)新,讓 AI 應(yīng)用為各類前沿科學(xué)研究和探索帶來(lái)更多加速、助力與收獲。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10196

    瀏覽量

    174684
  • 軟硬件
    +關(guān)注

    關(guān)注

    1

    文章

    313

    瀏覽量

    19705
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50423

原文標(biāo)題:至強(qiáng)? 平臺(tái)上五步優(yōu)化 AlphaFold2 端到端推理,通量提升達(dá) 23.11倍!

文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    智能駕駛領(lǐng)域,英特爾有何優(yōu)勢(shì)?

    英特爾作為“Apollo計(jì)劃”的重要合作伙伴之一,將提供硬件支持以及全方位的端到端解決方案。此外,英特爾還計(jì)劃將Apollo這樣的開源軟件平臺(tái)與英特爾Go自動(dòng)駕駛解決方案進(jìn)行磨合,充分
    的頭像 發(fā)表于 10-09 09:27 ?6802次閱讀

    英特爾將在2014年推出14納米處理器芯片

    地區(qū)總經(jīng)理Pat Bliemer在接受北歐硬件網(wǎng)站獨(dú)家采訪時(shí)披露了這個(gè)信息。他說,這個(gè)技術(shù)已經(jīng)能夠在實(shí)驗(yàn)室條件下制造14納米芯片。這意味著英特爾在生產(chǎn)技術(shù)方面與競(jìng)爭(zhēng)對(duì)手相比擁有巨大的優(yōu)勢(shì)。英特
    發(fā)表于 12-05 10:49

    英特爾多款平板電腦CPU將于明年推出

    架構(gòu)Willow Trail處理器出現(xiàn),其同樣支持Windows系統(tǒng)和Android平板電腦。  英特爾透露,該公司將在2014年第一季度推出Merrifield智能手機(jī)平臺(tái),而在第三季度
    發(fā)表于 12-19 16:48

    產(chǎn)業(yè)風(fēng)暴,英特爾能否扳倒ARM?

    `誰(shuí)將會(huì)憑借更具優(yōu)勢(shì)的策略在移動(dòng)處理器領(lǐng)域獲得成功?未來(lái)手機(jī)的架構(gòu)是由Intel還是ARM主導(dǎo)?英特爾的策略是主打X86處理器。在英特爾集團(tuán),負(fù)責(zé)歐洲UMPC市場(chǎng)的Jon Jaders
    發(fā)表于 09-26 11:26

    為什么選擇加入英特爾

    近日,加入英特爾已有3個(gè)月的明星芯片架構(gòu)師Jim Keller接受了外媒VentureBeat的采訪,在采訪中談及了自己加入英特爾的始末和讓其為之興奮的新角色——英特爾公司技術(shù)、系統(tǒng)
    發(fā)表于 07-25 07:31

    蘋果Mac棄用英特爾芯片的原因

      蘋果首次舉行線上開發(fā)者大會(huì)(WWDC20),在一系列iOS14、macOS等軟硬件更新宣布中,最重磅的莫過于蘋果電腦Mac未來(lái)將使用自研的ARM架構(gòu)芯片,逐步替代現(xiàn)有的英特爾芯片。  在業(yè)
    發(fā)表于 06-23 08:53

    英特爾重點(diǎn)發(fā)布o(jì)neAPI v1.0,異構(gòu)編程器到底是什么

    ,作為它的底層硬件抽象機(jī)構(gòu),oneAPI Level Zero API 在上個(gè)月也達(dá)到了 1.0 版本。伴隨著邁入 1.0 穩(wěn)定版,英特爾認(rèn)為已經(jīng)準(zhǔn)備好提供跨加速器架構(gòu)的通用開發(fā)者體驗(yàn)。oneAPI
    發(fā)表于 10-26 13:51

    超越英偉達(dá)Pascal五倍?揭秘英特爾深度學(xué)習(xí)芯片架構(gòu) 精選資料推薦

    在被英特爾收購(gòu)兩年之后,深度學(xué)習(xí)芯片公司 Nervana 終于準(zhǔn)備將代號(hào)為「Lake Crest」的架構(gòu)轉(zhuǎn)化為實(shí)際的產(chǎn)品了。對(duì)于英特爾來(lái)說,現(xiàn)在入局或許有些遲到,英偉達(dá)已經(jīng)占據(jù)深度學(xué)習(xí)芯片市場(chǎng)很長(zhǎng)一段時(shí)間了,后者有充分的時(shí)間通過
    發(fā)表于 07-26 07:04

    英特爾Optane DC PMM硬件的相關(guān)資料分享

    數(shù)據(jù)移近CPU,提供類似DRAM的延遲,同時(shí)也具有類似存儲(chǔ)設(shè)備的持久性和容量。 經(jīng)過一年的時(shí)間聽取硬件和軟件合作伙伴談?wù)摮志脙?nèi)存的好處,現(xiàn)在,隨著第二代英特爾至強(qiáng)可擴(kuò)展處理器的發(fā)布,Optane DC ...
    發(fā)表于 11-17 06:21

    決戰(zhàn)AI芯片!英特爾押寶Nervana NNP

    在羅馬式建筑和科技感的AI場(chǎng)景間之間,英特爾的AI掌舵者Naveen Rao侃侃而談英特爾的人工智能軟硬件組合,而最重磅的信息莫過于Nervana神經(jīng)網(wǎng)絡(luò)芯片的發(fā)布預(yù)告,按照規(guī)劃,英特爾
    的頭像 發(fā)表于 06-08 01:20 ?5109次閱讀

    軟硬件結(jié)合,英特爾助推計(jì)算力指數(shù)級(jí)提升

    美國(guó)時(shí)間5月16日,英特爾2019開源技術(shù)峰會(huì)(OSTS)在華盛頓州Stevenson圓滿結(jié)束。大會(huì)從14日開始,共持續(xù)3天。在今年的開源技術(shù)峰會(huì)上,英特爾公司高級(jí)副總裁兼架構(gòu)、圖形與軟件部門總經(jīng)理
    發(fā)表于 05-22 20:46 ?195次閱讀

    英特爾推嵌入式3D攝像頭 將虛擬場(chǎng)景變?yōu)楝F(xiàn)實(shí)

    英特爾首次公布有感知能力的電腦運(yùn)算,讓用戶能用更自然的方式使用電腦。今年的CES,英特爾更進(jìn)一步宣布推出名為”RealSense”技術(shù)的全新軟硬件產(chǎn)品系列,將類似于人的感知能力引入基于英特爾
    發(fā)表于 07-05 11:42 ?876次閱讀

    英特爾推出基于Xe-LP微架構(gòu)的首款數(shù)據(jù)中心GPU

    推出新功能,作為公司軟硬件聯(lián)合設(shè)計(jì)方法的一部分。同時(shí),英特爾正式發(fā)布其首款數(shù)據(jù)中心獨(dú)立圖形顯卡。該服務(wù)器GPU基于Xe-LP微架構(gòu),專為高密度、低時(shí)延的安卓云游戲和流媒體服務(wù)而設(shè)計(jì)。
    的頭像 發(fā)表于 11-12 16:31 ?2420次閱讀

    英特爾軟硬件構(gòu)建模塊如何幫助優(yōu)化RAG應(yīng)用

    深入研究檢索增強(qiáng)生成 (Retrieval Augmented Generation, RAG),該創(chuàng)新方法定義了企業(yè)和機(jī)構(gòu)如何利用大語(yǔ)言模型(LLM)來(lái)發(fā)揮其數(shù)據(jù)的價(jià)值。本文將探索若干英特爾
    的頭像 發(fā)表于 07-24 15:12 ?889次閱讀
    <b class='flag-5'>英特爾</b><b class='flag-5'>軟硬件</b>構(gòu)建模塊如何幫助優(yōu)化RAG應(yīng)用

    英特爾2024產(chǎn)品年鑒:AI與軟硬件的融合發(fā)展

    潛力,并攜手廣泛的生態(tài)合作伙伴促進(jìn)應(yīng)用落地。具體而言,2024年英特爾軟硬件產(chǎn)品及生態(tài)方面主要取得了以下進(jìn)展: 12月 英特爾發(fā)布代號(hào)為Battlemage的全新 銳炫B系列顯卡 。英特爾
    的頭像 發(fā)表于 12-31 17:28 ?438次閱讀
    <b class='flag-5'>英特爾</b>2024產(chǎn)品年鑒:AI與<b class='flag-5'>軟硬件</b>的融合發(fā)展