一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek發(fā)表重磅論文!推出NSA技術(shù),讓AI模型降本增效

章鷹觀察 ? 來源:電子發(fā)燒友原創(chuàng) ? 作者:章鷹 ? 2025-02-19 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

(電子發(fā)燒友報道 文/章鷹)2月18日,在馬斯克的xAI公司發(fā)布了Grok3大模型后,中國公司深度探索公司推出了用于超快速長文本訓練訓練與推理的“原生稀疏注意力”(Native Sparse Attention,簡稱 NSA)。

DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據(jù) arXiv 網(wǎng)站上發(fā)布的論文摘要顯示,“我們提出了NSA,這是一種原生可訓練的稀疏注意力機制,它將算法創(chuàng)新與硬件對齊的優(yōu)化相結(jié)合,以實現(xiàn)高效的長上下文建模?!?/p>

論文稱,NSA 在通用基準檢驗、長文本任務(wù)和基于指令的推理中均能達到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。

實驗顯示,NSA 不僅在通用任務(wù)和長上下文任務(wù)中表現(xiàn)出色,還在例如鏈式推理等復(fù)雜任務(wù)中展現(xiàn)強大的潛力,且推理速度加快。

在通用基準檢驗、長文本處理以及基于指令的推理任務(wù)中,NSA 的表現(xiàn)均能達到甚至超越傳統(tǒng)全注意力(Full Attention)模型的水平,以性價比極高的方式,罕見地在訓練階段應(yīng)用稀疏性,在訓練推理場景中顯著提升速度,特別是在譯碼階段實現(xiàn)高達 11.6 倍的提升。

透過高效的長序列處理能力,NSA 使模型能夠直接處理整本書、代碼庫或多輪對話(如千輪客服場景),擴展大語言模型在文文件分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro 已展示長上下文的潛力,NSA 能進一步降低這類模型的訓練與推理成本。

在這篇名題為「原生稀疏注意力:硬件對齊且可原生訓練的稀疏注意力機制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創(chuàng)始人梁文鋒也是共同作者。

中國人工智能軟件巨頭商湯科技智能產(chǎn)業(yè)研究院前院長田鋒表示,隨著全球人工智能競爭持續(xù)升溫,不同的公司在不同領(lǐng)域展示了競爭優(yōu)勢。據(jù)田鋒介紹,DeepSeek 開發(fā)的資源高效的開源模型在數(shù)學推理和軟件工程任務(wù)方面表現(xiàn)出色,而 OpenAI 的 o1 在一般知識和解決問題方面表現(xiàn)更佳。

我們看到,來自中國人工智能公司還展示了各種優(yōu)勢,包括競爭性能和成本效益。田鋒強調(diào):“通過利用替代數(shù)據(jù)源、開發(fā)自主技術(shù)以及促進國內(nèi)技術(shù)生態(tài)系統(tǒng)內(nèi)的合作,DeepSeek 和其他中國人工智能公司能夠創(chuàng)造出不僅滿足國內(nèi)需求而且能夠提高全球競爭力的解決方案,”

這是自1月20日DeepSeek發(fā)布R1模型震撼AI圈以來,DeepSeek首次發(fā)布的技術(shù)動態(tài)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    375

    瀏覽量

    611
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    797

    瀏覽量

    1732
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù)DeepSeek 核心技術(shù)揭秘

    析和前瞻性的行業(yè)洞察,為技術(shù)人員、研究人員和大模型相關(guān)技術(shù)愛好者提供了寶貴的學習資料。 本書目錄結(jié)構(gòu) 第1章介紹 DeepSeek 的一系列技術(shù)
    發(fā)表于 06-09 14:38

    IBM探索AI驅(qū)動的降本增效新路徑

    AI 驅(qū)動已成為企業(yè)降本增效的戰(zhàn)略級引擎,其價值實現(xiàn)不在于技術(shù)本身,而在于與業(yè)務(wù)場景的深度融合。IBM 咨詢提出的"戰(zhàn)略規(guī)劃+運營管理"雙軌并行模式,突破傳統(tǒng)單點優(yōu)化的局限,構(gòu)建
    的頭像 發(fā)表于 05-22 15:29 ?343次閱讀

    福田歐曼銀河5助力物流運輸行業(yè)降本增效

    在物流運輸行業(yè)競爭日趨白熱化的當下,每一分成本削減與效率提升都直接關(guān)乎用戶的生存空間,而運輸效率與運營效益已成為檢驗重卡性能的核心指標。面對行業(yè)降本增效的迫切需求,歐曼銀河5精準錨定用戶痛點,從動
    的頭像 發(fā)表于 05-20 09:23 ?404次閱讀

    PLC遠程維護上下載,降本增效減少出差的利器

    PLC(可編程邏輯控制器)遠程維護上下載技術(shù)已成為現(xiàn)代工業(yè)領(lǐng)域降本增效、減少出差的核心工具,尤其在工業(yè)4.0與物聯(lián)網(wǎng)技術(shù)推動下,價值愈發(fā)凸顯。對此,數(shù)之能提供PLC遠程編程調(diào)試和遠程上下載程序等
    的頭像 發(fā)表于 05-19 11:17 ?197次閱讀
    PLC遠程維護上下載,<b class='flag-5'>降本增效</b>減少出差的利器

    Deepseek海思SD3403邊緣計算AI產(chǎn)品系統(tǒng)

    的訓練樣本和訓練 模型,具體商業(yè)價值和保密性,采用海思SD3403邊緣計算AI服務(wù)器+多路安防監(jiān)控IPC,差異化AI視頻系統(tǒng), 成本控制極具市場競爭力。 海思SD3403邊緣計算
    發(fā)表于 04-28 11:05

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    的端側(cè)部署,Token產(chǎn)生速度提升了40%,端側(cè)大模型擁有更高的計算效率和推理性能,使端側(cè)AI交互響應(yīng)更及時,用戶體驗更貼心。 聯(lián)發(fā)科還與vivo和全民K歌攜手,借助天璣AI人聲萃
    發(fā)表于 04-13 19:52

    RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作為國產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R
    發(fā)表于 02-27 16:45

    添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略

    AI 技術(shù)日新月異的當下,新的模型與突破不斷涌現(xiàn)。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速在全球開發(fā)者圈子里
    發(fā)表于 02-14 17:42

    DeepSeek模型受行業(yè)熱捧,加速AI應(yīng)用迭代

    趨勢反映出DeepSeek模型AI領(lǐng)域的強大影響力。通過接入DeepSeek,這些機構(gòu)能夠獲取更先進的AI
    的頭像 發(fā)表于 02-14 14:14 ?606次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應(yīng)用選擇

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek推出的兩個不同定位的大模型,其核心差異主要體現(xiàn)在目標場
    發(fā)表于 02-14 02:08

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自發(fā)布以來吸引了眾多用戶關(guān)注,為了 deepin 用戶更好地體驗這一前沿技術(shù),UOS AI 現(xiàn)已適配接入
    的頭像 發(fā)表于 02-08 09:52 ?1063次閱讀

    戴爾科技助力企業(yè)實現(xiàn)科學的降本增效

    降本增效作為一個老生常談的話題,盡管在多年的實踐中各種策略和方法層出不窮,但真正實現(xiàn)成本削減和效率提升的路徑依然不明確,一不小心就變成了“降本降效”。
    的頭像 發(fā)表于 10-29 15:19 ?724次閱讀

    光伏電站智慧運維系統(tǒng)助力光伏電站降本增效

    光伏電站智慧運維系統(tǒng)助力光伏電站降本增效 隨著光伏行業(yè)的不斷發(fā)展,光伏運維的重要性日益提升,因此公眾智能監(jiān)測結(jié)合相關(guān)的計算機技術(shù)和數(shù)據(jù)處理技術(shù),自主研發(fā)了光伏電站智慧運維系統(tǒng),該系
    的頭像 發(fā)表于 09-06 16:50 ?883次閱讀
    光伏電站智慧運維系統(tǒng)助力光伏電站<b class='flag-5'>降本增效</b>

    AR眼鏡:醫(yī)藥廠商降本增效新利器

    在快速迭代的醫(yī)藥行業(yè)中,每一分效率的提升都意味著更多的機遇與成本節(jié)約。面對復(fù)雜多變的市場環(huán)境,特別是疫情帶來的挑戰(zhàn),醫(yī)藥廠商們正積極尋求創(chuàng)新與突破。讓我們一同探索AR眼鏡如何成為醫(yī)藥廠商降本增效的得力
    的頭像 發(fā)表于 07-23 13:39 ?614次閱讀

    直線電機模組:米思米如何以“磁”之力,引領(lǐng)降本增效新風尚?

    在“降本增效”成為企業(yè)共識的今天,米思米直線電機模組以其獨特的磁力驅(qū)動技術(shù)、優(yōu)化的結(jié)構(gòu)設(shè)計以及高性價比優(yōu)勢脫穎而出成為了眾多企業(yè)的首選。
    的頭像 發(fā)表于 07-23 11:16 ?673次閱讀