一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓Attention提速9倍!FlashAttention燃爆顯存,Transformer上下文長度史詩級提升

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-07-24 16:55 ? 次閱讀

FlashAttention新升級!斯坦福博士一人重寫算法,第二代實(shí)現(xiàn)了最高9倍速提升。

繼超快且省內(nèi)存的注意力算法FlashAttention爆火后,升級版的2代來了。FlashAttention-2是一種從頭編寫的算法,可以加快注意力并減少其內(nèi)存占用,且沒有任何近似值。比起第一代,F(xiàn)lashAttention-2速度提升了2倍。

甚至,相較于PyTorch的標(biāo)準(zhǔn)注意力,其運(yùn)行速度最高可達(dá)9倍。

一年前,StanfordAILab博士Tri Dao發(fā)布了FlashAttention,讓注意力快了2到4倍,如今,F(xiàn)lashAttention已經(jīng)被許多企業(yè)和研究室采用,廣泛應(yīng)用于大多數(shù)LLM庫。如今,隨著長文檔查詢、編寫故事等新用例的需要,大語言模型的上下文以前比過去變長了許多——GPT-4的上下文長度是32k,MosaicML的MPT上下文長度是65k,Anthropic的Claude上下文長度是100k。但是,擴(kuò)大Transformer的上下文長度是一項(xiàng)極大的挑戰(zhàn),因?yàn)樽鳛槠浜诵牡淖⒁饬拥倪\(yùn)行時(shí)間和內(nèi)存要求,是輸入序列長度的二次方。Tri Dao一直在研究FlashAttention-2,它比v1快2倍,比標(biāo)準(zhǔn)的注意力快5到9倍,在A100上已經(jīng)達(dá)到了225 TFLOP/s的訓(xùn)練速度!

35a61e38-29ff-11ee-a368-dac502259ad0.png

論文鏈接:https://tridao.me/publications/flash2/flash2.pdf

項(xiàng)目鏈接:

https://github.com/Dao-AILab/flash-attention

35c3cc6c-29ff-11ee-a368-dac502259ad0.png ?

FlashAttention-2:更好的算法、并行性和工作分區(qū)

端到端訓(xùn)練GPT模型,速度高達(dá)225 TFLOP/s

雖說FlashAttention在發(fā)布時(shí)就已經(jīng)比優(yōu)化的基線快了2-4倍,但還是有相當(dāng)大的進(jìn)步空間。比方說,F(xiàn)lashAttention仍然不如優(yōu)化矩陣乘法(GEMM)運(yùn)算快,僅能達(dá)到理論最大FLOPs/s的25-40%(例如,在A100 GPU上的速度可達(dá)124 TFLOPs/s)。

35de6e1e-29ff-11ee-a368-dac502259ad0.png

▲ GEMM如何用于卷積在過去的幾個(gè)月里,研究人員一直在開發(fā)FlashAttention-2,它的性能指標(biāo)比第一代更強(qiáng)。研究人員表示,2代相當(dāng)于完全從頭重寫,使用英偉達(dá)的CUTLASS 3.x及其核心庫CuTe。從速度上看,F(xiàn)lashAttention-2比之前的版本快了2倍,在A100 GPU上的速度可達(dá)230 TFLOPs/s。當(dāng)使用端到端來訓(xùn)練GPT之類的語言模型時(shí),研究人員的訓(xùn)練速度高達(dá)225 TFLOPs/s(模型的FLOP利用率為72%)。

對注意力計(jì)算重新排序

我們知道,F(xiàn)lashAttention是一種對注意力計(jì)算進(jìn)行重新排序的算法,利用平鋪、重新計(jì)算來顯著加快計(jì)算速度,并將序列長度的內(nèi)存使用量從二次減少到線性。

3657c5d4-29ff-11ee-a368-dac502259ad0.png

研究人員將輸入塊從HBM(GPU內(nèi)存)加載到SRAM(快速緩存),并對該模塊執(zhí)行注意,更新HBM中的輸出。由于沒有將大型中間注意力矩陣寫入HBM,內(nèi)存的讀/寫量也跟著減少,進(jìn)而帶來了2-4倍的執(zhí)行時(shí)間加速。下圖是FlashAttention的前向傳遞圖:通過平鋪和softmax重新縮放,研究人員人員按模塊進(jìn)行操作,避免從HBM讀取或是寫入,同時(shí)獲得正確輸出,無需近似。369d1f26-29ff-11ee-a368-dac502259ad0.png

然而,F(xiàn)lashAttention仍然存在一些低效率的問題,這是由于不同線程塊之間的工作劃分并不理想,以及GPU上的warp——導(dǎo)致低占用率或不必要的共享內(nèi)存讀寫。

更少的non-matmulFLOP(非矩陣乘法浮點(diǎn)計(jì)算數(shù))

研究人員通過調(diào)整FlashAttention的算法來減少non-matmul FLOP的次數(shù)。這非常重要,因?yàn)楝F(xiàn)代GPU有專門的計(jì)算單元(比如英偉達(dá)GPU上的張量核心),這就使得matmul的速度更快。例如,A100 GPU FP16/BF16 matmul的最大理論吞吐量為312 TFLOPs/s,但non-matmul FP32的理論吞吐量僅為 19.5 TFLOPs/s。另外,每個(gè)非matmul FLOP比matmul FLOP要貴16倍。所以為了保持高吞吐量,研究人員希望在matmul FLOP上花盡可能多的時(shí)間。研究人員還重新編寫了FlashAttention中使用的在線softmax技巧,以減少重新縮放操作的數(shù)量,以及邊界檢查和因果掩碼操作,而無需更改輸出。

更好的并行性

FlashAttention v1在批大小和部數(shù)量上進(jìn)行并行化處理。研究人員使用1個(gè)線程塊來處理一個(gè)注意力頭,共有 (batch_size * head number) 個(gè)線程塊。

36cb68b8-29ff-11ee-a368-dac502259ad0.png

▲在前向處理(左圖)中,研究者將Worker(線程塊)并行化,每個(gè)Worker負(fù)責(zé)處理注意力矩陣的一個(gè)行塊。在后向處理過程中(右圖),每個(gè)Worker處理注意力矩陣的一個(gè)列塊

每個(gè)線程塊都在流式多處理器 (SM)運(yùn)行,例如,A100 GPU上有108個(gè)這樣的處理器。當(dāng)這個(gè)數(shù)字很大(比如 ≥80)時(shí),這種調(diào)度是有效的,因?yàn)樵谶@種情況下,可以有效地使用GPU上幾乎所有的計(jì)算資源。在長序列的情況下(通常意味著更小批或更少的頭),為了更好地利用GPU上的多處理器,研究人員在序列長度的維度上另外進(jìn)行了并行化,使得該機(jī)制獲得了顯著加速。

更好的工作分區(qū)

即使在每個(gè)線程塊內(nèi),研究人員也必須決定如何在不同的warp(線程束)之間劃分工作(一組32個(gè)線程一起工作)。研究人員通常在每個(gè)線程塊使用4或8個(gè)warp,分區(qū)方案如下圖所示。研究人員在FlashAttention-2中改進(jìn)了這種分區(qū),減少了不同warp之間的同步和通信量,從而減少共享內(nèi)存讀/寫。36fb00e6-29ff-11ee-a368-dac502259ad0.png對于每個(gè)塊,F(xiàn)lashAttention將K和V分割到4個(gè)warp上,同時(shí)保持Q可被所有warp訪問。這稱為「sliced-K」方案。然而,這樣做的效率并不高,因?yàn)樗衱arp都需要將其中間結(jié)果寫入共享內(nèi)存,進(jìn)行同步,然后再將中間結(jié)果相加。而這些共享內(nèi)存讀/寫會(huì)減慢FlashAttention中的前向傳播速度。在FlashAttention-2中,研究人員將Q拆分為4個(gè)warp,同時(shí)保持所有warp都可以訪問K和V。在每個(gè)warp執(zhí)行矩陣乘法得到Q K^T的一個(gè)切片后,它們只需與共享的V切片相乘,即可得到相應(yīng)的輸出切片。這樣一來,warp之間就不再需要通信。共享內(nèi)存讀寫的減少就可以提高速度。 3739797a-29ff-11ee-a368-dac502259ad0.png ?新功能:頭的維度高達(dá)256,多查詢注意力

FlashAttention僅支持最大128的頭的維度,雖說適用于大多數(shù)模型,但還是有一些模型被排除在外。FlashAttention-2現(xiàn)在支持256的頭的維度,這意味著GPT-J、CodeGen、CodeGen2以及Stable Diffusion 1.x等模型都可以使用FlashAttention-2來獲得加速和節(jié)省內(nèi)存。v2還支持多查詢注意力(MQA)以及分組查詢注意力(GQA)。

377ca1d2-29ff-11ee-a368-dac502259ad0.png

GQA為每組查詢頭共享單個(gè)key和value的頭,在多頭和多查詢注意之間進(jìn)行插值

這些都是注意力的變體,其中多個(gè)查詢頭會(huì)指向key和value的同一個(gè)頭,以減少推理過程中KV緩存的大小,并可以顯著提高推理的吞吐量。 379d9464-29ff-11ee-a368-dac502259ad0.png ?

注意力基準(zhǔn)

研究人員人員在A100 80GB SXM4 GPU 上測量不同設(shè)置(有無因果掩碼、頭的維度是64或128)下不同注意力方法的運(yùn)行時(shí)間。37c79eee-29ff-11ee-a368-dac502259ad0.png研究人員發(fā)現(xiàn)FlashAttention-2比第一代快大約2倍(包括在xformers庫和Triton中的其他實(shí)現(xiàn))。與PyTorch中的標(biāo)準(zhǔn)注意力實(shí)現(xiàn)相比,F(xiàn)lashAttention-2的速度最高可達(dá)其9倍。

37e91a92-29ff-11ee-a368-dac502259ad0.png

▲A100 GPU上的前向+后向速度

只需在H100 GPU上運(yùn)行相同的實(shí)現(xiàn)(不需要使用特殊指令來利用TMA和第四代Tensor Core等新硬件功能),研究人員就可以獲得高達(dá)335 TFLOPs/s的速度。

3843bcb8-29ff-11ee-a368-dac502259ad0.png

▲H100 GPU上的前向+后向速度

當(dāng)用于端到端訓(xùn)練GPT類模型時(shí),F(xiàn)lashAttention-2能在A100 GPU上實(shí)現(xiàn)高達(dá)225TFLOPs/s的速度(模型FLOPs利用率為72%)。與已經(jīng)非常優(yōu)化的FlashAttention模型相比,端到端的加速進(jìn)一步提高了1.3倍。3884eab2-29ff-11ee-a368-dac502259ad0.png ?38a7e814-29ff-11ee-a368-dac502259ad0.png ?

未來的工作

速度上快2倍,意味著研究人員可以用與之前訓(xùn)練8k上下文模型相同的成本,來訓(xùn)練16k上下文長度的模型。這些模型可以理解長篇書籍和報(bào)告、高分辨率圖像、音頻視頻。同時(shí),F(xiàn)lashAttention-2還將加速現(xiàn)有模型的訓(xùn)練、微調(diào)和推理。在不久的將來,研究人員還計(jì)劃擴(kuò)大合作,使FlashAttention廣泛適用于不同類型的設(shè)備(例如H100 GPU、AMD GPU)以及新的數(shù)據(jù)類型(例如fp8)。下一步,研究人員計(jì)劃針對H100 GPU進(jìn)一步優(yōu)化FlashAttention-2,以使用新的硬件功能(TMA、第四代Tensor Core、fp8等等)。將FlashAttention-2中的低級優(yōu)化與高級算法更改(例如局部、擴(kuò)張、塊稀疏注意力)相結(jié)合,可以讓研究人員用更長的上下文來訓(xùn)練AI模型。研究人員也很高興與編譯器研究人員合作,使這些優(yōu)化技術(shù)更好地應(yīng)用于編程。 38c13b84-29ff-11ee-a368-dac502259ad0.png ?作者介紹

Tri Dao曾在斯坦福大學(xué)獲得了計(jì)算機(jī)博士學(xué)位,導(dǎo)師是Christopher Ré和Stefano Ermon。根據(jù)主頁介紹,他將從2024年9月開始,任職普林斯頓大學(xué)計(jì)算機(jī)科學(xué)助理教授。

Tri Dao的研究興趣在于機(jī)器學(xué)習(xí)和系統(tǒng),重點(diǎn)關(guān)注高效訓(xùn)練和長期環(huán)境:- 高效Transformer訓(xùn)練和推理 - 遠(yuǎn)程記憶的序列模型 - 緊湊型深度學(xué)習(xí)模型的結(jié)構(gòu)化稀疏性。

值得一提的是,Tri Dao今天正式成為生成式AI初創(chuàng)公司Together AI的首席科學(xué)家。

3920ef98-29ff-11ee-a368-dac502259ad0.png

參考資料:https://princeton-nlp.github.io/flash-atttention-2/


原文標(biāo)題:讓Attention提速9倍!FlashAttention燃爆顯存,Transformer上下文長度史詩級提升

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:讓Attention提速9倍!FlashAttention燃爆顯存,Transformer上下文長度史詩級提升

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執(zhí)行上下文切換?

    如果我們在 AUTOSAR 中使用 CAT1 ISR,是否需要執(zhí)行上下文切換?另外,是否需要返回指令才能跳回到作系統(tǒng)?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    發(fā)表于 03-27 07:34

    摩爾線程Round Attention優(yōu)化AI對話

    摩爾線程科研團(tuán)隊(duì)發(fā)布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對話優(yōu)化新范式》,該方法端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache 顯存占用節(jié)省55%到82% 。
    的頭像 發(fā)表于 03-06 09:39 ?364次閱讀
    摩爾線程Round <b class='flag-5'>Attention</b>優(yōu)化AI對話

    DeepSeek推出NSA機(jī)制,加速長上下文訓(xùn)練與推理

    的特性,專為超快速的長上下文訓(xùn)練和推理而設(shè)計(jì)。 NSA通過針對現(xiàn)代硬件的優(yōu)化設(shè)計(jì),顯著加快了推理速度,并大幅度降低了預(yù)訓(xùn)練成本,同時(shí)保持了卓越的性能表現(xiàn)。這一機(jī)制在確保效率的同時(shí),并未犧牲模型的準(zhǔn)確性或功能。 在廣泛的基準(zhǔn)測試、涉及長上下文的任務(wù)以及基于指令的推理場景中,
    的頭像 發(fā)表于 02-19 14:01 ?529次閱讀

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    學(xué)習(xí)任務(wù)、上下文長度、記憶和隱藏狀態(tài)提高適應(yīng)性。 任務(wù)適應(yīng) 依賴數(shù)據(jù)采集和微調(diào),可能效率較低。 利用復(fù)雜指令并自動(dòng)從多樣的上下文中學(xué)習(xí)。 預(yù)訓(xùn)練階段 專注于世界知識和理解硬件。 強(qiáng)調(diào)在各種任務(wù)上學(xué)
    發(fā)表于 12-24 15:03

    阿里通義千問發(fā)布Qwen2.5-Turbo開源AI模型

    近日,阿里通義千問官方宣布,經(jīng)過數(shù)月的精心優(yōu)化與改進(jìn),正式推出了Qwen2.5-Turbo開源AI模型。這款新模型旨在滿足社區(qū)對更長上下文長度的迫切需求,為用戶帶來更加便捷、高效的AI
    的頭像 發(fā)表于 11-19 18:07 ?1034次閱讀

    SystemView上下文統(tǒng)計(jì)窗口識別阻塞原因

    SystemView工具可以記錄嵌入式系統(tǒng)的運(yùn)行時(shí)行為,實(shí)現(xiàn)可視化的深入分析。在新發(fā)布的v3.54版本中,增加了一項(xiàng)新功能:上下文統(tǒng)計(jì)窗口,提供了對任務(wù)運(yùn)行時(shí)統(tǒng)計(jì)信息的深入分析,使用戶能夠徹底檢查每個(gè)任務(wù),幫助開發(fā)人員識別阻塞原因。
    的頭像 發(fā)表于 08-20 11:31 ?597次閱讀

    鴻蒙Ability Kit(程序框架服務(wù))【應(yīng)用上下文Context】

    [Context]是應(yīng)用中對象的上下文,其提供了應(yīng)用的一些基礎(chǔ)信息,例如resourceManager(資源管理)、applicationInfo(當(dāng)前應(yīng)用信息)、dir(應(yīng)用文件路徑)、area
    的頭像 發(fā)表于 06-06 09:22 ?753次閱讀
    鴻蒙Ability Kit(程序框架服務(wù))【應(yīng)用<b class='flag-5'>上下文</b>Context】

    編寫一個(gè)任務(wù)調(diào)度程序,在上下文切換后遇到了一些問題求解

    大家好, 我正在編寫一個(gè)任務(wù)調(diào)度程序,在上下文切換后遇到了一些問題。 為下一個(gè)任務(wù)恢復(fù)上下文后: __builtin_tricore_mtcr_by_name(\"pcxi\"
    發(fā)表于 05-22 07:50

    鴻蒙開發(fā)接口Ability框架:【ServiceExtensionContext】

    ServiceExtensionContext模塊是ServiceExtension的上下文環(huán)境,繼承自ExtensionContext。
    的頭像 發(fā)表于 05-20 16:26 ?1097次閱讀
    鴻蒙開發(fā)接口Ability框架:【ServiceExtensionContext】

    MiniMax推出“海螺AI”,支持超長文本處理

    近日,大模型公司MiniMax宣布,其全新產(chǎn)品“海螺AI”已正式上架。這款強(qiáng)大的AI工具支持高達(dá)200ktokens的上下文長度,能夠在1秒內(nèi)處理近3萬字的文本。
    的頭像 發(fā)表于 05-17 09:30 ?1153次閱讀

    鴻蒙開發(fā)接口Ability框架:【ExtensionContext】

    ExtensionContext是Extension的上下文環(huán)境,繼承自Context。
    的頭像 發(fā)表于 05-15 17:34 ?470次閱讀
    鴻蒙開發(fā)接口Ability框架:【ExtensionContext】

    鴻蒙開發(fā)接口Ability框架:【AbilityStageContext】

    AbilityStageContext是AbilityStage的上下文環(huán)境,繼承自[Context]。
    的頭像 發(fā)表于 05-15 15:51 ?758次閱讀
    鴻蒙開發(fā)接口Ability框架:【AbilityStageContext】

    OpenAI發(fā)布GPT-4o模型,支持文本、圖像、音頻信息,速度提升,價(jià)格不變

     此外,該模型還具備128K的上下文記憶能力,知識截止日期設(shè)定為2023年10月。微軟方面也宣布,已通過Azure OpenAI服務(wù)提供GPT-4o的預(yù)覽版。
    的頭像 發(fā)表于 05-14 17:12 ?1045次閱讀

    微信大模型擴(kuò)容并開源,推出首個(gè)中英雙語文生圖模型,參數(shù)規(guī)模達(dá)15億

    基于Diffusion Transformer的混元DiT是一種文本到圖像生成模塊,具備中英細(xì)粒度理解能力,能與用戶進(jìn)行多輪對話,根據(jù)上下文生成并完善圖像。
    的頭像 發(fā)表于 05-14 17:10 ?1032次閱讀

    鴻蒙開發(fā)接口Ability框架:【(AbilityContext)】

    AbilityContext是Ability的上下文環(huán)境,繼承自Context。
    的頭像 發(fā)表于 05-13 09:26 ?1260次閱讀
    鴻蒙開發(fā)接口Ability框架:【(AbilityContext)】