一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepSeek的開(kāi)源之路:一文讀懂從V1-R1的技術(shù)發(fā)展,見(jiàn)證從開(kāi)源新秀到推理革命的領(lǐng)跑者

京東云 ? 來(lái)源:jf_75140285 ? 作者:jf_75140285 ? 2025-02-26 09:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:京東科技 蔡欣彤

一、引言:AI時(shí)代的挑戰(zhàn)與DeepSeek的崛起

在大模型時(shí)代,AI技術(shù)的飛速發(fā)展帶來(lái)了前所未有的機(jī)遇,但也伴隨著巨大的挑戰(zhàn)。隨著模型規(guī)模的不斷擴(kuò)大,算力需求呈指數(shù)級(jí)增長(zhǎng),訓(xùn)練成本飆升,而性能提升的邊際收益卻逐漸遞減,形成了所謂的“Scaling Law”瓶頸。與此同時(shí),OpenAI、谷歌等巨頭通過(guò)閉源策略壟斷技術(shù),限制了中小企業(yè)和研究機(jī)構(gòu)的參與空間。在這樣的背景下,DeepSeek應(yīng)運(yùn)而生,以“低成本+高性能+開(kāi)源”為核心理念,致力于打破行業(yè)壁壘,為AI普惠化開(kāi)辟了新的可能性。

但每一個(gè)大模型爆火的背后都是需要經(jīng)歷一代代的技術(shù)積累和演進(jìn),所以文本介紹一下 DeepSeek 系列主要模型的發(fā)布?xì)v史及每一代模型的技術(shù)突破。

二、DeepSeek的發(fā)展歷程

1.DeepSeek-V1

DeepSeek V1是2024年1月份發(fā)布的第一版DeepSeek模型,論文地址: https://github.com/deepseek-ai/deepseek-LLM

DeepSeek-V1 有 7B 和 67B 兩個(gè)版本,并且每個(gè)版本分別有基礎(chǔ)和聊天的模型,它支持多種編程語(yǔ)言,具有強(qiáng)大的編碼能力,適合程序開(kāi)發(fā)人員和技術(shù)研究人員使用。

1.1 技術(shù)分析

?數(shù)據(jù)層面:通過(guò)包括去重、過(guò)濾、混合3個(gè)步驟構(gòu)建一個(gè)多樣性強(qiáng)、純凈的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)

?模型結(jié)構(gòu)方面: 模型的主體結(jié)構(gòu)基本沿用LLaMA的體系結(jié)構(gòu), 在注意力機(jī)制方面, 7B模型使用 多頭注意力Multi-Head attention (MHA),而67B模型使用Grouped-Query Attention (GQA)替代MHA用來(lái)降低成本

1.2 成果解讀

第一代的模型在我看來(lái)更多的還是復(fù)現(xiàn)LLaMA,雖然采用了更優(yōu)質(zhì)的訓(xùn)練集提升了性能,但就像DeepSeek論文中提到,也存在潛在缺點(diǎn):過(guò)渡依賴(lài)培訓(xùn)數(shù)據(jù)容易產(chǎn)生偏見(jiàn);幻覺(jué)問(wèn)題沒(méi)有處理很好;在其生成的響應(yīng)中表現(xiàn)出重復(fù)回答等問(wèn)題.

2.DeepSeek-V2

2024年5月左右發(fā)布了DeepSeek-V2,論文地址: https://github.com/deepseek-ai/DeepSeek-V2 .

這個(gè)版本的發(fā)布也讓deepSeek正式引起了大模型領(lǐng)域的關(guān)注.

2.1 技術(shù)分析

DeepSeek V2最核心的點(diǎn)都在改動(dòng)模型結(jié)構(gòu)上.分別為 多頭潛在注意力機(jī)制(Multi-head Latent Attention,MLA) 和 DeepSeekMoE架構(gòu), 這兩點(diǎn)也為后面的R1版本奠定了基礎(chǔ).

整體結(jié)構(gòu)如下圖:在注意力機(jī)制部分采用MLA,在前饋網(wǎng)絡(luò)(FFN)部分采用DeepSeekMoE的結(jié)構(gòu).

??

??

2.1.1 MLA

在標(biāo)準(zhǔn)的 Transformer 模型中,多頭注意力機(jī)制(MHA)通過(guò)并行計(jì)算多個(gè)注意力頭來(lái)捕捉輸入序列中的不同特征,每個(gè)注意力頭都有自己的Q,K,V. 這樣在處理長(zhǎng)序列時(shí),鍵值緩存(KV Cache)的內(nèi)存開(kāi)銷(xiāo)會(huì)隨著序列長(zhǎng)度線(xiàn)性增長(zhǎng),這成為大模型推理效率的主要瓶頸之一.

MLA利用低秩鍵值聯(lián)合壓縮來(lái)消除推理時(shí)間鍵值緩存的瓶頸,從而支持有效的推理.MLA的具體實(shí)現(xiàn)包括以下關(guān)鍵技術(shù):

?低秩鍵值聯(lián)合壓縮(low-rank key-value joint compression):MLA通過(guò)將鍵和值矩陣壓縮到低維空間,減少了KV Cache的內(nèi)存占用。

?多頭潛在注意力:MLA在傳統(tǒng)多頭注意力的基礎(chǔ)上,引入了潛在注意力機(jī)制,通過(guò)動(dòng)態(tài)調(diào)整注意力頭的計(jì)算方式,進(jìn)一步優(yōu)化了長(zhǎng)序列處理的效率。

?稀疏注意力:MLA通過(guò)稀疏化注意力權(quán)重,減少了計(jì)算復(fù)雜度,同時(shí)保持了模型的性能。

2.1.2 DeepSeekMoE

DeepSeekMoE對(duì)比傳統(tǒng)的混合專(zhuān)家模型(Mixture of Experts, MoE),多了2個(gè)核心優(yōu)化:

?細(xì)粒度專(zhuān)家劃分:如圖(b)Fine-grained Expert,DeepSeekMoE 將專(zhuān)家數(shù)量大幅增加,每個(gè)專(zhuān)家負(fù)責(zé)更小的輸入空間。這種細(xì)粒度劃分使專(zhuān)家能夠更專(zhuān)注于特定任務(wù),從而提高模型的表達(dá)能力和泛化性能

?共享專(zhuān)家隔離:如圖(c)Shared Expert DeepSeekMoE 引入共享專(zhuān)家機(jī)制,用于捕獲跨任務(wù)的通用知識(shí).這樣的設(shè)計(jì)減少了路由專(zhuān)家之間的冗余,提高了參數(shù)效率,還改善了負(fù)載均衡問(wèn)題,避免了某些專(zhuān)家被過(guò)度激活的情況.(簡(jiǎn)單點(diǎn)來(lái)說(shuō),就是共享專(zhuān)家干通用的活,其他專(zhuān)家干自己更專(zhuān)業(yè)的活)

wKgZO2e9nTyAcSitAAQGtnHOU48327.png

??

此外,DeepSeekMoE還做了負(fù)載均衡策略,

?負(fù)載均衡策略:論文中為L(zhǎng)oad Balance Consideration

?Expert-Level Balance Loss:創(chuàng)新性地避免了傳統(tǒng)負(fù)載均衡方法對(duì)模型性能的負(fù)面影響,通過(guò)靈活的批量負(fù)載均衡策略,允許專(zhuān)家在不同領(lǐng)域中更好地專(zhuān)業(yè)化

?Device-Level Balance Loss:在分布式訓(xùn)練和推理中,DeepSeekMoE 通過(guò)設(shè)備受限的路由機(jī)制,將專(zhuān)家分配到不同的設(shè)備上,并限制每個(gè)設(shè)備只能訪(fǎng)問(wèn)本地專(zhuān)家。這減少了跨設(shè)備通信的開(kāi)銷(xiāo),顯著提升了訓(xùn)練和推理效率

2.2 成果解讀

高效的性能與低成本:通過(guò)上面的結(jié)構(gòu)優(yōu)化,降低了計(jì)算開(kāi)銷(xiāo),訓(xùn)練成本的降低大幅降低了開(kāi)發(fā)門(mén)檻,適合科研和商業(yè)化應(yīng)用

chaijie_default.png

??

3.DeepSeek-V3

DeepSeek-V3 是在2024年12月26正式發(fā)布. 論文地址: DeepSeekV3 Technical Report

DeepSeek-V3是該系列中的一個(gè)里程碑版本,專(zhuān)注于知識(shí)類(lèi)任務(wù)和數(shù)學(xué)推理,性能大幅度提升,這個(gè)版本的發(fā)布也讓DeepSeek走進(jìn)了大眾視野.

整體來(lái)說(shuō),V3版本繼續(xù)沿用了V2版本的MLA和DeepSeekMoE結(jié)構(gòu),總使用了671B參數(shù),完成整個(gè)訓(xùn)練時(shí)間也減少很多.

We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. DeepSeek-V3 requires only 2.788M H800 GPU hours for its full training.

3.1 技術(shù)分析

DeepSeekV3在模型結(jié)構(gòu)上的核心優(yōu)化有兩點(diǎn):

1.對(duì)DeepSeekMoE中的多專(zhuān)家負(fù)載均衡問(wèn)題,提出了無(wú)輔助損失負(fù)載均衡策略(auxiliary-loss-free strategy),相比使用輔助loss提升了模型性能;

2.引入多Token預(yù)測(cè)(Multi-Token Prediction,MTP)技術(shù),相比原來(lái)每次只能預(yù)測(cè)一個(gè)token,顯著提升了infer的速度。

3.1.1 auxiliary-loss-free strategy

無(wú)輔助損失策略旨在解決傳統(tǒng) MoE 模型中因負(fù)載不均衡導(dǎo)致的計(jì)算效率下降和性能損失問(wèn)題.

傳統(tǒng)的 MoE 模型中,專(zhuān)家負(fù)載不均衡是一個(gè)常見(jiàn)問(wèn)題。某些專(zhuān)家可能會(huì)被過(guò)度激活,而其他專(zhuān)家則處于閑置狀態(tài),這不僅降低了計(jì)算效率,還可能導(dǎo)致路由崩潰(routing collapse),從而影響模型性能.為了解決這一問(wèn)題,傳統(tǒng)方法通常依賴(lài)于輔助損失(Auxiliary Loss),通過(guò)額外的損失函數(shù)來(lái)強(qiáng)制均衡專(zhuān)家的負(fù)載。然而,輔助損失可能會(huì)對(duì)模型性能產(chǎn)生負(fù)面影響,尤其是在損失權(quán)重設(shè)置不當(dāng)?shù)那闆r下.

而無(wú)輔助損失負(fù)載均衡策略則是通過(guò)動(dòng)態(tài)調(diào)整專(zhuān)家路由的偏差項(xiàng)(bias term)來(lái)實(shí)現(xiàn)負(fù)載均衡,而無(wú)需引入額外的輔助損失函數(shù).具體來(lái)說(shuō):

? 偏差項(xiàng)調(diào)整:在訓(xùn)練過(guò)程中,系統(tǒng)會(huì)監(jiān)控每個(gè)專(zhuān)家的負(fù)載情況。如果某個(gè)專(zhuān)家過(guò)載,則減少其偏差項(xiàng);如果某個(gè)專(zhuān)家欠載,則增加其偏差項(xiàng)。這種動(dòng)態(tài)調(diào)整確保了專(zhuān)家負(fù)載的均衡,同時(shí)避免了輔助損失對(duì)模型性能的干擾

? 路由機(jī)制:在計(jì)算專(zhuān)家親和度分?jǐn)?shù)(affinity score)時(shí),偏差項(xiàng)被添加到親和度分?jǐn)?shù)中,以確定每個(gè) token 應(yīng)該路由到哪些專(zhuān)家。門(mén)控值(gating value)仍然基于原始的親和度分?jǐn)?shù)計(jì)算,從而保持了模型的路由靈活性

采用這種方法,無(wú)需引入額外的損失函數(shù),從而在保持模型性能的同時(shí)提高了訓(xùn)練穩(wěn)定性

3.1.2 MTP

傳統(tǒng)的模型通常采用單Token預(yù)測(cè)目標(biāo),即每次將當(dāng)前預(yù)測(cè)結(jié)果作為最新的一個(gè)輸入,再次預(yù)測(cè)下一個(gè)。而MTP則擴(kuò)展了這一目標(biāo),要求模型在每個(gè)時(shí)間同時(shí)預(yù)測(cè)多個(gè)未來(lái)的Token(例如2個(gè)、3個(gè)或更多)。

使用MTP, 一方面每次預(yù)測(cè)多個(gè)Token,可使訓(xùn)練信號(hào)更密集,提高數(shù)據(jù)利用效率和訓(xùn)練速度,另一方面也可以讓模型在生成后續(xù)token的時(shí)候有一個(gè)全局性,從而生成更連貫和語(yǔ)義準(zhǔn)確的文本.

大致做法:模型除了有一個(gè)主模型,還有幾個(gè)并行的MTP模塊.這些MTP模塊的Embedding層和Output Head和主模型共享.在主模型預(yù)測(cè)了next token后,將這個(gè)預(yù)測(cè)token的表征和之前token的Embedding拼接到一起,生成一個(gè)新的輸入(超出長(zhǎng)度的更久遠(yuǎn)的token被才減掉)。這個(gè)拼接好的Embedding輸入到第一個(gè)MTP中預(yù)測(cè)next next token。以此類(lèi)推..

文中引入Multi-Token Prediction主要為了提升訓(xùn)練效果,推理階段可以直接去掉這些MTP模塊,主模型可以獨(dú)立運(yùn)行,確保模型的正常工作.

wKgZPGe9nT2AYO2aAALRAzJkfUk076.png

??

3.2 成果

DeepSeek-V3 多項(xiàng)評(píng)測(cè)成績(jī)超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開(kāi)源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

wKgZO2e9nT6AYkIbAAJawIq5s10068.png

??

?

4.DeepSeek-R1-Zero和DeepSeek-R1

接著就來(lái)到了重頭戲,在2025年1月20日發(fā)布的DeepSeek-R1模型, 論文地址: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

他的發(fā)布,帶來(lái)了世界的震撼,也讓2025年初所有人都開(kāi)始談?wù)?

4.1 技術(shù)分析

其實(shí)這個(gè)DeepSeek-R1先有一個(gè)DeepSeek-R1-Zero的版本,只通過(guò)強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,沒(méi)有用監(jiān)督微調(diào) (SFT) 作為預(yù)備步驟,但是它遇到了諸如可讀性差和語(yǔ)言混合等問(wèn)題,接著引入了 DeepSeek-R1,它在 RL 之前結(jié)合了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù).

DeepSeek-R1的技術(shù)主要有以下幾點(diǎn):

?采用GROP(Group Relative Policy Optimization)算法

?Reward Modeling :一種基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)和語(yǔ)言一致性獎(jiǎng)勵(lì)系統(tǒng)

?Cold Start:使用數(shù)千條冷啟動(dòng)數(shù)據(jù)

4.1.1 GROP算法

LLM 中主流 RLHF 方向分為兩大路線(xiàn):

?以 [PPO] 為代表的 On Policy 路線(xiàn) (但目前最常用的還是PPO)每次訓(xùn)練都基于自己的生成模型(Actor),通過(guò)教練(Critic)反饋獎(jiǎng)勵(lì);優(yōu)勢(shì)是效率高,沒(méi)有模型自生成自然效率高,問(wèn)題是訓(xùn)練后模型能力可能不夠;

?以 [DPO] 為代表的 Off Policy 路線(xiàn) 基于現(xiàn)有標(biāo)注的情況進(jìn)行分析,存在訓(xùn)練樣本可能與模型不匹配的問(wèn)題;優(yōu)勢(shì)是更有可能達(dá)到模型能力的上限,問(wèn)題是效率較低。

從PPO的優(yōu)化過(guò)程分析,其存在如下缺點(diǎn):1.需要訓(xùn)練一個(gè)與策略模型大小相當(dāng)?shù)膬r(jià)值模型(Value Model),這帶來(lái)了巨大的內(nèi)存和計(jì)算負(fù)擔(dān); 2.LLM 通常只有最后一個(gè) token 會(huì)被獎(jiǎng)勵(lì)模型打分,訓(xùn)練在每個(gè) token 上都準(zhǔn)確價(jià)值函數(shù)難;

而GROP避免了像 PPO 那樣使用額外的 Value Model ,而是使用同一問(wèn)題下多個(gè)采樣輸出的平均獎(jiǎng)勵(lì)作為基線(xiàn),好處:

?無(wú)需額外的價(jià)值函數(shù):GRPO 使用組內(nèi)平均獎(jiǎng)勵(lì)作為基線(xiàn),避免了訓(xùn)練額外的價(jià)值函數(shù),從而減少了內(nèi)存和計(jì)算負(fù)擔(dān)。

?與獎(jiǎng)勵(lì)模型的比較性質(zhì)對(duì)齊:GRPO 使用組內(nèi)相對(duì)獎(jiǎng)勵(lì)計(jì)算優(yōu)勢(shì)函數(shù),這與獎(jiǎng)勵(lì)模型通常在同一問(wèn)題的不同輸出之間進(jìn)行比較的性質(zhì)相符。

?KL懲罰在損失函數(shù)中:GRPO 直接將訓(xùn)練策略 πθ 和參考策略 πref 之間的 KL 散度添加到損失中,而不是像 PPO 那樣在獎(jiǎng)勵(lì)中添加 KL 懲罰項(xiàng),從而避免了復(fù)雜化 A^i,t 的計(jì)算。

wKgZO2e9nTCAev66AAN4T6Dcm34258.png

??

4.1.2 Reward Modeling

為了訓(xùn)練DeepSeek-R1-Zero,采用了一種基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),該系統(tǒng)主要由兩種類(lèi)型的獎(jiǎng)勵(lì)組成:

?準(zhǔn)確性獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)模型評(píng)估響應(yīng)是否正確。例如,在具有確定性結(jié)果的數(shù)學(xué)問(wèn)題中,模型需要以指定格式(例如,在框內(nèi))提供最終答案,從而實(shí)現(xiàn)基于規(guī)則的可靠正確性驗(yàn)證。類(lèi)似地,對(duì)于 LeetCode 問(wèn)題,可以使用編譯器根據(jù)預(yù)定義的測(cè)試用例生成反饋。

?格式獎(jiǎng)勵(lì):強(qiáng)制模型將其思考過(guò)程置于 ‘’ 和 ‘’ 標(biāo)簽之間。

注意, DeepSeek-R1-Zero 時(shí)沒(méi)有使用結(jié)果或過(guò)程神經(jīng)獎(jiǎng)勵(lì)模型,因?yàn)榘l(fā)現(xiàn)神經(jīng)獎(jiǎng)勵(lì)模型在大型強(qiáng)化學(xué)習(xí)過(guò)程中可能會(huì)遭受獎(jiǎng)勵(lì)黑客(reward hacking ),并且重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外的訓(xùn)練資源,這會(huì)使整個(gè)訓(xùn)練流程變得復(fù)雜。

在訓(xùn)練DeepSeek-R1階段,為了解決DeepSeek-R1-Zero中存在的語(yǔ)言混合問(wèn)題,在RL中中引入了語(yǔ)言一致性獎(jiǎng)勵(lì)(language consistency reward ),該獎(jiǎng)勵(lì)計(jì)算為CoT中目標(biāo)語(yǔ)言詞的比例.

最后,通過(guò)將推理任務(wù)的準(zhǔn)確性和語(yǔ)言一致性獎(jiǎng)勵(lì)相加來(lái)形成最終獎(jiǎng)勵(lì).

4.1.3 Cold Start

與 DeepSeek-R1-Zero 不同,為了解決 RL 訓(xùn)練從基礎(chǔ)模型開(kāi)始的早期不穩(wěn)定冷啟動(dòng)階段,對(duì)于 DeepSeek-R1,構(gòu)建并收集少量長(zhǎng) CoT 數(shù)據(jù)。為了收集此類(lèi)數(shù)據(jù),用了幾種方法:使用少量樣本提示,以長(zhǎng) CoT 作為示例;直接提示模型生成帶有反思和驗(yàn)證的詳細(xì)答案;以可讀格式收集 DeepSeek-R1-Zero 輸出;以及通過(guò)人工標(biāo)注者進(jìn)行后處理來(lái)細(xì)化結(jié)果。

4.1.4 DeepSeek-R1訓(xùn)練的整體流程

首先對(duì)DeepSek-V3進(jìn)行RL訓(xùn)練,并采用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),產(chǎn)生DeepSeek-R1-Zero模型.通過(guò)提示指引DeepSeek-R1-Zero模型帶有反思和驗(yàn)證的詳細(xì)答案等Code Start數(shù)據(jù),然后將收集到的數(shù)千條冷啟動(dòng)數(shù)據(jù)重新微調(diào) DeepSeek-V3-Base 模型.接著執(zhí)行類(lèi)似 DeepSeek-R1-Zero 的面向推理的強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)過(guò)程接近收斂時(shí),我們通過(guò)對(duì)強(qiáng)化學(xué)習(xí)檢查點(diǎn)進(jìn)行拒絕采樣,并結(jié)合來(lái)自 DeepSeek-V3 在寫(xiě)作、事實(shí)問(wèn)答和自我認(rèn)知等領(lǐng)域中的監(jiān)督數(shù)據(jù),創(chuàng)建新的 SFT 數(shù)據(jù),然后再次重新訓(xùn)練 DeepSeek-V3-Base 模型,在使用新數(shù)據(jù)進(jìn)行微調(diào)后,檢查點(diǎn)會(huì)進(jìn)行額外的強(qiáng)化學(xué)習(xí)過(guò)程.(ps:二次訓(xùn)練 DeepSeek-V3是因?yàn)檫@次使用的新數(shù)據(jù)是更加優(yōu)質(zhì)的CoT數(shù)據(jù),使得訓(xùn)練完之后的模型推理性能再度提升,在這一步我真的感慨這種想法,就是一種藝術(shù)~~).經(jīng)過(guò)這些步驟,獲得了名為 DeepSeek-R1 的模型,其性能與 OpenAI-o1-1217 相當(dāng)。

wKgZPGe9nT-AEqo-AAT8ffC5w2g010.png

??

4.2 成果解讀

DeepSeek-R1 在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版。

wKgZPGe9nTGASt-hAAV1RsATATc550.png

??

通過(guò) DeepSeek-R1 的輸出,蒸餾了 6 個(gè)小模型開(kāi)源給社區(qū),其中 32B 和 70B 模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo) OpenAI o1-mini 的效果。

wKgZO2e9nUCARkDiAAKagil1Dhk444.png

??

四.結(jié)語(yǔ):從大模型引發(fā)的思考

我對(duì)大模型時(shí)代的看法,我覺(jué)得我們已經(jīng)拉開(kāi)了新的一幕,如果說(shuō)第一幕是知識(shí)驅(qū)動(dòng)模型,卷參數(shù)量,拼算力,那么DeepSeek-R1的出現(xiàn)帶我進(jìn)入第二幕-推理驅(qū)動(dòng).在這一幕,讓模型學(xué)會(huì)自我思考,自我推理更為重要.而且更優(yōu)秀的算法來(lái)提高參數(shù)效率,降低訓(xùn)練成本也成為了關(guān)鍵所在.

最后,碼字不易,喜歡這篇文章的,請(qǐng)給作者點(diǎn)個(gè)贊吧,做個(gè)小小鼓勵(lì)~~

五.參考文獻(xiàn)

1. DeepSeek

2. DeepSeek中用到的Grouped-Query Attention技術(shù)是什么來(lái)頭

3. 10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)

4. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

5. Multi-Head Latent Attention (MLA) 詳細(xì)介紹

6. 一文通透DeepSeek V2——通俗理解多頭潛在注意力MLA:改進(jìn)MHA,從而壓縮KV緩存,提高推理速度

7. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

8. DeepSeekV3 Technical Report

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279610
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3680

    瀏覽量

    43818
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3139

    瀏覽量

    4062
  • DeepSeek
    +關(guān)注

    關(guān)注

    1

    文章

    797

    瀏覽量

    1735
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何使用OpenVINO運(yùn)行DeepSeek-R1蒸餾模型

    DeepSeek-R1在春節(jié)期間引發(fā)了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開(kāi)發(fā)的開(kāi)源推理模型,用于解決需要邏輯
    的頭像 發(fā)表于 03-12 13:45 ?1428次閱讀
    如何使用OpenVINO運(yùn)行<b class='flag-5'>DeepSeek-R1</b>蒸餾模型

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek)推出的兩個(gè)不同定位的大模型,其核心差異主要體現(xiàn)在目標(biāo)場(chǎng)景、能力側(cè)重和技術(shù)優(yōu)化方向上。以下是二
    發(fā)表于 02-14 02:08

    RK3588開(kāi)發(fā)板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作為國(guó)產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R1作為該系列最新迭代版本,實(shí)現(xiàn)了長(zhǎng)文本處理效
    發(fā)表于 02-27 16:45

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.62】本書(shū)讀懂 DeepSeek 全家桶核心技術(shù)DeepSeek 核心技術(shù)揭秘

    章深入剖析 DeepSeek-V3 的模型架構(gòu)、訓(xùn)練框架、推理階段優(yōu)化、后訓(xùn)練優(yōu)化等關(guān)鍵技術(shù)。混合專(zhuān)家模型(MoE)的起源與發(fā)展
    發(fā)表于 06-09 14:38

    解讀“領(lǐng)跑者”認(rèn)證計(jì)劃

    指標(biāo)設(shè)計(jì)評(píng)價(jià)體系。該計(jì)劃將通過(guò)嚴(yán)格的技術(shù)評(píng)價(jià)手段遴選出領(lǐng)跑者先進(jìn)技術(shù)產(chǎn)品,支持我國(guó)光伏發(fā)電技術(shù)進(jìn)步和產(chǎn)業(yè)升級(jí)。Q1 簡(jiǎn)要概述光伏發(fā)電產(chǎn)品“
    發(fā)表于 08-27 16:40

    LED筒燈怎么申請(qǐng)GB30255-2019能效領(lǐng)跑者標(biāo)識(shí)?

    強(qiáng)制性國(guó)家標(biāo)準(zhǔn)編號(hào);(8)能效信息碼;(9)能效"領(lǐng)跑者"信息(僅針對(duì)列入國(guó)家能效""領(lǐng)跑者"目錄的產(chǎn)品)。LED筒燈能源效率標(biāo)識(shí)樣式示例如下:定向
    發(fā)表于 07-15 10:05

    開(kāi)源硬件黃金時(shí)代】開(kāi)源運(yùn)動(dòng)浪潮:軟件硬件(文中課件可下載)

    運(yùn)動(dòng)的無(wú)盡前沿,軟件世界大步踏入了硬件領(lǐng)域。以社會(huì)學(xué)/經(jīng)濟(jì)學(xué)/工程學(xué)的角度來(lái)看,作為種架構(gòu)/生態(tài)的開(kāi)源技術(shù)是怎樣的?以歷史/政治學(xué)/哲學(xué)的角度來(lái)看,作為
    發(fā)表于 10-18 21:26

    對(duì)標(biāo)OpenAI o1,DeepSeek-R1發(fā)布

    今天,我們正式發(fā)布 DeepSeek-R1,并同步開(kāi)源模型權(quán)重。 DeepSeek-R1 遵循 MIT License,允許用戶(hù)通過(guò)蒸餾技術(shù)借助 R
    的頭像 發(fā)表于 01-22 13:46 ?2204次閱讀
    對(duì)標(biāo)OpenAI o<b class='flag-5'>1</b>,<b class='flag-5'>DeepSeek-R1</b>發(fā)布

    AIBOX 全系產(chǎn)品已適配 DeepSeek-R1

    DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力,目前基于開(kāi)源R1模型具有1
    的頭像 發(fā)表于 02-08 17:30 ?595次閱讀
    AIBOX 全系產(chǎn)品已適配 <b class='flag-5'>DeepSeek-R1</b>

    DeepSeek V3/R1架構(gòu)解讀:探討其是否具有國(guó)運(yùn)級(jí)創(chuàng)新

    DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都屬于MoE(混合專(zhuān)家)架構(gòu),并在開(kāi)源世界產(chǎn)生了較大的影響力。特別是2025 年
    的頭像 發(fā)表于 02-10 10:15 ?5027次閱讀
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>V</b>3/<b class='flag-5'>R1</b>架構(gòu)解讀:探討其是否具有國(guó)運(yùn)級(jí)創(chuàng)新

    OpenAI O3與DeepSeek R1:推理模型性能深度分析

    ,OpenAI的O3在編碼任務(wù)方面超過(guò)了DeepSeekR1,而R1在數(shù)學(xué)和推理方面表現(xiàn)出了競(jìng)爭(zhēng)力,同時(shí)在成本效益和開(kāi)源可訪(fǎng)問(wèn)性方面也具有
    的頭像 發(fā)表于 02-18 11:07 ?946次閱讀

    開(kāi)源大模型DeepSeek的開(kāi)放內(nèi)容詳析

    當(dāng)大家討論為什么 DeepSeek 能夠形成全球刷屏之勢(shì),讓所有廠(chǎng)商、平臺(tái)都集成之時(shí),「開(kāi)源」成為了最大的關(guān)鍵詞之,圖靈獎(jiǎng)得主 Yann LeCun 稱(chēng)其是「開(kāi)源的勝利」。模型
    的頭像 發(fā)表于 02-19 09:48 ?1446次閱讀
    <b class='flag-5'>開(kāi)源</b>大模型<b class='flag-5'>DeepSeek</b>的開(kāi)放內(nèi)容詳析

    壁仞科技支持DeepSeek-V3滿(mǎn)血版訓(xùn)練推理

    DeepSeek開(kāi)源開(kāi)源了部分關(guān)鍵模塊的代碼及推理系統(tǒng)參考架構(gòu),再次引發(fā)行業(yè)震動(dòng),但目前尚未開(kāi)源De
    的頭像 發(fā)表于 03-04 14:01 ?997次閱讀

    DeepSeek開(kāi)源新版R1 媲美OpenAI o3

    DeepSeek“悄悄”地又放了個(gè)大招,DeepSeek開(kāi)源R1最新0528版本。盡管DeepSee
    的頭像 發(fā)表于 05-29 11:23 ?459次閱讀

    百度騰訊搶灘布局!DeepSeek-R1升級(jí)和開(kāi)源背后,國(guó)產(chǎn)AI的逆襲之路

    電子發(fā)燒友網(wǎng)報(bào)道(/李彎彎)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級(jí),當(dāng)前版本為DeepSeek-R1-0528。次日,
    的頭像 發(fā)表于 06-03 06:34 ?5497次閱讀