一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek發(fā)表重磅論文!推出NSA技術(shù),讓AI模型降本增效

章鷹觀察 ? 來(lái)源:電子發(fā)燒友原創(chuàng) ? 作者:章鷹 ? 2025-02-19 10:22 ? 次閱讀
(電子發(fā)燒友報(bào)道 文/章鷹)2月18日,在馬斯克的xAI公司發(fā)布了Grok3大模型后,中國(guó)公司深度探索公司推出了用于超快速長(zhǎng)文本訓(xùn)練訓(xùn)練與推理的“原生稀疏注意力”(Native Sparse Attention,簡(jiǎn)稱(chēng) NSA)。

DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據(jù) arXiv 網(wǎng)站上發(fā)布的論文摘要顯示,“我們提出了NSA,這是一種原生可訓(xùn)練的稀疏注意力機(jī)制,它將算法創(chuàng)新與硬件對(duì)齊的優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長(zhǎng)上下文建模?!?/p>

論文稱(chēng),NSA 在通用基準(zhǔn)檢驗(yàn)、長(zhǎng)文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時(shí)保持模型能力提供了一個(gè)有前景的方向。

實(shí)驗(yàn)顯示,NSA 不僅在通用任務(wù)和長(zhǎng)上下文任務(wù)中表現(xiàn)出色,還在例如鏈?zhǔn)酵评淼葟?fù)雜任務(wù)中展現(xiàn)強(qiáng)大的潛力,且推理速度加快。

在通用基準(zhǔn)檢驗(yàn)、長(zhǎng)文本處理以及基于指令的推理任務(wù)中,NSA 的表現(xiàn)均能達(dá)到甚至超越傳統(tǒng)全注意力(Full Attention)模型的水平,以性?xún)r(jià)比極高的方式,罕見(jiàn)地在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)練推理場(chǎng)景中顯著提升速度,特別是在譯碼階段實(shí)現(xiàn)高達(dá) 11.6 倍的提升。

透過(guò)高效的長(zhǎng)序列處理能力,NSA 使模型能夠直接處理整本書(shū)、代碼庫(kù)或多輪對(duì)話(如千輪客服場(chǎng)景),擴(kuò)展大語(yǔ)言模型在文文件分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro 已展示長(zhǎng)上下文的潛力,NSA 能進(jìn)一步降低這類(lèi)模型的訓(xùn)練與推理成本。

在這篇名題為「原生稀疏注意力:硬件對(duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創(chuàng)始人梁文鋒也是共同作者。

中國(guó)人工智能軟件巨頭商湯科技智能產(chǎn)業(yè)研究院前院長(zhǎng)田鋒表示,隨著全球人工智能競(jìng)爭(zhēng)持續(xù)升溫,不同的公司在不同領(lǐng)域展示了競(jìng)爭(zhēng)優(yōu)勢(shì)。據(jù)田鋒介紹,DeepSeek 開(kāi)發(fā)的資源高效的開(kāi)源模型在數(shù)學(xué)推理和軟件工程任務(wù)方面表現(xiàn)出色,而 OpenAI 的 o1 在一般知識(shí)和解決問(wèn)題方面表現(xiàn)更佳。

我們看到,來(lái)自中國(guó)人工智能公司還展示了各種優(yōu)勢(shì),包括競(jìng)爭(zhēng)性能和成本效益。田鋒強(qiáng)調(diào):“通過(guò)利用替代數(shù)據(jù)源、開(kāi)發(fā)自主技術(shù)以及促進(jìn)國(guó)內(nèi)技術(shù)生態(tài)系統(tǒng)內(nèi)的合作,DeepSeek 和其他中國(guó)人工智能公司能夠創(chuàng)造出不僅滿足國(guó)內(nèi)需求而且能夠提高全球競(jìng)爭(zhēng)力的解決方案,”

這是自1月20日DeepSeek發(fā)布R1模型震撼AI圈以來(lái),DeepSeek首次發(fā)布的技術(shù)動(dòng)態(tài)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    358

    瀏覽量

    465
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    755

    瀏覽量

    1050
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    的訓(xùn)練樣本和訓(xùn)練 模型,具體商業(yè)價(jià)值和保密性,采用海思SD3403邊緣計(jì)算AI服務(wù)器+多路安防監(jiān)控IPC,差異化AI視頻系統(tǒng), 成本控制極具市場(chǎng)競(jìng)爭(zhēng)力。 海思SD3403邊緣計(jì)算
    發(fā)表于 04-28 11:05

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件端側(cè)AI模型接入得心應(yīng)手

    的端側(cè)部署,Token產(chǎn)生速度提升了40%,端側(cè)大模型擁有更高的計(jì)算效率和推理性能,使端側(cè)AI交互響應(yīng)更及時(shí),用戶(hù)體驗(yàn)更貼心。 聯(lián)發(fā)科還與vivo和全民K歌攜手,借助天璣AI人聲萃
    發(fā)表于 04-13 19:52

    鑫金暉亮相【2025年行家說(shuō)LED顯示屏及MLED產(chǎn)業(yè)鏈峰會(huì)】賦能COB/LED自動(dòng)化烘烤工藝改革-開(kāi)啟降本增效的新引擎

    )作為行業(yè)智庫(kù)專(zhuān)家受邀出席發(fā)表《COB/LED智能自動(dòng)化烘烤工藝改革降本增效的新引擎》主題分享。聚焦COB、LED烘烤工藝痛點(diǎn)與技術(shù)創(chuàng)新助力改革升級(jí)降本增效現(xiàn)場(chǎng),鐘瑞
    的頭像 發(fā)表于 03-13 14:17 ?326次閱讀
    鑫金暉亮相【2025年行家說(shuō)LED顯示屏及MLED產(chǎn)業(yè)鏈峰會(huì)】賦能COB/LED自動(dòng)化烘烤工藝改革-開(kāi)啟<b class='flag-5'>降本增效</b>的新引擎

    RK3588開(kāi)發(fā)板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作為國(guó)產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R
    發(fā)表于 02-27 16:45

    添越智創(chuàng)基于 RK3588 開(kāi)發(fā)板部署測(cè)試 DeepSeek 模型全攻略

    AI 技術(shù)日新月異的當(dāng)下,新的模型與突破不斷涌現(xiàn)。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速在全球開(kāi)發(fā)者圈子里
    發(fā)表于 02-14 17:42

    DeepSeek模型受行業(yè)熱捧,加速AI應(yīng)用迭代

    趨勢(shì)反映出DeepSeek模型AI領(lǐng)域的強(qiáng)大影響力。通過(guò)接入DeepSeek,這些機(jī)構(gòu)能夠獲取更先進(jìn)的AI
    的頭像 發(fā)表于 02-14 14:14 ?453次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek推出的兩個(gè)不同定位的大模型,其核心差異主要體現(xiàn)在目標(biāo)場(chǎng)
    發(fā)表于 02-14 02:08

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自發(fā)布以來(lái)吸引了眾多用戶(hù)關(guān)注,為了 deepin 用戶(hù)更好地體驗(yàn)這一前沿技術(shù),UOS AI 現(xiàn)已適配接入
    的頭像 發(fā)表于 02-08 09:52 ?735次閱讀

    戴爾科技助力企業(yè)實(shí)現(xiàn)科學(xué)的降本增效

    降本增效作為一個(gè)老生常談的話題,盡管在多年的實(shí)踐中各種策略和方法層出不窮,但真正實(shí)現(xiàn)成本削減和效率提升的路徑依然不明確,一不小心就變成了“降本降效”。
    的頭像 發(fā)表于 10-29 15:19 ?595次閱讀

    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站降本增效

    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站降本增效 隨著光伏行業(yè)的不斷發(fā)展,光伏運(yùn)維的重要性日益提升,因此公眾智能監(jiān)測(cè)結(jié)合相關(guān)的計(jì)算機(jī)技術(shù)和數(shù)據(jù)處理技術(shù),自主研發(fā)了光伏電站智慧運(yùn)維系統(tǒng),該系
    的頭像 發(fā)表于 09-06 16:50 ?723次閱讀
    光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站<b class='flag-5'>降本增效</b>

    市場(chǎng)解讀 對(duì)話展商 磁元件峰會(huì)揭秘新能源降本增效秘籍

    邁進(jìn),這一趨勢(shì)不僅提升了產(chǎn)品質(zhì)量與生產(chǎn)效率,更為新能源企業(yè)帶來(lái)了顯著的降本增效效果。 在第二十三屆(華東)中國(guó)磁性元器件行業(yè)智能生產(chǎn)暨高性能材料應(yīng)用技術(shù)峰會(huì)上,《磁性元件與電源》記者現(xiàn)場(chǎng)采訪了材料廠商、設(shè)備廠商等
    的頭像 發(fā)表于 08-06 13:44 ?450次閱讀
    市場(chǎng)解讀 對(duì)話展商 磁元件峰會(huì)揭秘新能源<b class='flag-5'>降本增效</b>秘籍

    AR眼鏡:醫(yī)藥廠商降本增效新利器

    在快速迭代的醫(yī)藥行業(yè)中,每一分效率的提升都意味著更多的機(jī)遇與成本節(jié)約。面對(duì)復(fù)雜多變的市場(chǎng)環(huán)境,特別是疫情帶來(lái)的挑戰(zhàn),醫(yī)藥廠商們正積極尋求創(chuàng)新與突破。讓我們一同探索AR眼鏡如何成為醫(yī)藥廠商降本增效的得力
    的頭像 發(fā)表于 07-23 13:39 ?481次閱讀

    直線電機(jī)模組:米思米如何以“磁”之力,引領(lǐng)降本增效新風(fēng)尚?

    在“降本增效”成為企業(yè)共識(shí)的今天,米思米直線電機(jī)模組以其獨(dú)特的磁力驅(qū)動(dòng)技術(shù)、優(yōu)化的結(jié)構(gòu)設(shè)計(jì)以及高性?xún)r(jià)比優(yōu)勢(shì)脫穎而出成為了眾多企業(yè)的首選。
    的頭像 發(fā)表于 07-23 11:16 ?536次閱讀

    降本增效,智能制造,離不開(kāi)儲(chǔ)能散熱管理

    近年來(lái),新能源汽車(chē)發(fā)展增速面臨下滑,產(chǎn)銷(xiāo)量承載壓力,動(dòng)力電池產(chǎn)業(yè)鏈的材料價(jià)格也因?yàn)楣┬柁D(zhuǎn)換開(kāi)始呈現(xiàn)下降趨勢(shì),特別體現(xiàn)在電池級(jí)碳酸鋰價(jià)格上。 在這種情況下,降本增效、智能制造,便成為現(xiàn)階段動(dòng)力電池產(chǎn)業(yè)
    的頭像 發(fā)表于 07-04 13:58 ?460次閱讀
    <b class='flag-5'>降本增效</b>,智能制造,離不開(kāi)儲(chǔ)能散熱管理

    清遠(yuǎn)mes管理系統(tǒng)助力企業(yè)降本增效

    清遠(yuǎn) MES管理系統(tǒng) 可以幫助企業(yè)降本增效的方式包括但不限于以下幾個(gè)方面: 生產(chǎn)過(guò)程優(yōu)化: 清遠(yuǎn)MES系統(tǒng) 可以實(shí)時(shí)監(jiān)控生產(chǎn)過(guò)程中的各個(gè)環(huán)節(jié),包括設(shè)備狀態(tài)、生產(chǎn)進(jìn)度、質(zhì)量指標(biāo)等,幫助企業(yè)管理人員及時(shí)
    的頭像 發(fā)表于 06-17 15:01 ?407次閱讀