當(dāng)大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關(guān)鍵詞之一,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型開源一直備受關(guān)注,從代碼、數(shù)據(jù)到模型的完全開源是人們渴求的方向。那么 DeepSeek 的開源究竟開放了什么?開放到了何種程度?本文作者——資深程序員+資深律師,一起為大家拆解 DeepSeek 的開源之道。
【寫在前面】DeepSeek 是目前可以和閉源大模型媲美的開源大模型,DeepSeek 許可證是負責(zé)任的人工智能許可證。按照 Linux 基金會的模型開放架構(gòu),DeepSeek 的開放層級尚未完全達到第三級。使用或者分發(fā) DeepSeek 大模型應(yīng)當(dāng)遵從 DeepSeek 許可證,包括對于使用場景的限制等。美中不足的是 DeepSeek 可能自己也沒有完全遵守其應(yīng)當(dāng)遵守的開源許可證。
DeepSeek 到底有多牛?
DeepSeek 的演進包括了 V2、V2.5、V3、R1-Zero、R1 等版本。其中,用于評估 V3 模型的基準測試包括 MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中國全國中學(xué)生數(shù)學(xué)奧林匹克競賽(CMO),以及美國數(shù)學(xué)邀請賽(AIME)。V3 的測試比對結(jié)果顯示 V3 是性能最佳的開源模型,并且與前沿閉源模型相比也表現(xiàn)出了競爭力。測試對比結(jié)果如下[1]:
圖 1 DeepSeek-V3 模型測試對比結(jié)果
R1 里程碑式的貢獻在于其主要采用強化學(xué)習(xí)(Reinforcement Learning,RL)而非監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)提升了大模型的能力。R1 的測試結(jié)果在某些測試項的表現(xiàn)優(yōu)于 OpenAI 的 o1。R1 的測試比對結(jié)果如下[2]:
圖 2 DeepSeek-R1 模型測試對比結(jié)果
就在看似閉源 OpenAI 遙遙領(lǐng)先之時,DeepSeek 開源大模型的出圈又帶來了巨大的不確定性。對于開源我們?nèi)匀粷M懷期待,就像 PC 時代的 Linux,移動終端時代的 Android,人類期待 AI 時代的「待定」(可參見《萬字長文!深入大模型版權(quán)歸屬問題》一文)。
DeepSeek 是什么開源許可證?
DeepSeek 在 Hugging Face 上一共開放了 68 個模型以及一個數(shù)據(jù)集[3]。DeepSeek-R1、DeepSeek-R1-Zero 模型的代碼和模型權(quán)重都采用的是 MIT 許可證。其余的模型采用的是 DeepSeek 許可證,但代碼采用的是 MIT 許可證。各模型采用的開放許可證如下:
表 1 DeepSeek 模型許可證
注:序號按照 Hugging Face 上的時間順序,序號越小時間越在前。
除了以上大模型之外,DeepSeek 還從 Qwen 和 Llama 蒸餾了 6 個模型,蒸餾模型的許可證為 MIT 許可證,Qwen 基礎(chǔ)模型許可證為 Apache 2.0,而 Llama 的許可證為 llama 許可證。
表 2 蒸餾模型許可證
DeepSeek 的開源/開放到了什么層級?
根據(jù) LF AI&Data 基金會引入的模型開放框架(Model Openness Framework,MOF),大模型的開放分為以下三個層次[4]:
圖 3 模型開放框架
以 DeepSeek-R1 和 DeepSeek-V3 為例,筆者理解的 DeepSeek 開放層級如下:
表 3 DeepSeek 模型開放層級
由上表可知,DeepSeek 開放了模型架構(gòu)、模型卡、模型參數(shù)、技術(shù)報告、評估結(jié)果等,因此,DeepSeek 的開放層次至多屬于第三級。DeepSeek 并未開放訓(xùn)練代碼、推理代碼、評估代碼、數(shù)據(jù)集等更為重要的組件。
使用及分發(fā) DeepSeek 大模型有哪些限制及條件?
除了 R1 系列模型之外的其他 DeepSeek 模型都采用 DeepSeek 許可證。
正如前文所述,DeepSeek 幾乎沒有開放任何數(shù)據(jù)?!皵?shù)據(jù)”是指從模型使用的用于訓(xùn)練、預(yù)訓(xùn)練或以其他方式評估模型的數(shù)據(jù)集中提取的信息和/或內(nèi)容的集合。因此,DeepSeek 許可證中也明確寫明數(shù)據(jù)未根據(jù)該許可證獲得許可。
DeepSeek 模型許可證的原型是負責(zé)任的人工智能許可證(Responsible AI License,RAIL)的模型許可證[5]。當(dāng)然 RAIL 的原型應(yīng)該是 Apache 2.0 許可證[6]。
(一)使用限制
RAIL 旨在防止不負責(zé)任和有害的應(yīng)用程序。為此,在 RAIL 許可證中加入了使用限制條款,具體而言,采用 DeepSeek 許可證的模型不得用于以下情形:
以任何方式違反任何適用的國家或國際法律或法規(guī)或侵犯任何第三方的合法權(quán)益;
以任何方式用于軍事用途;
以任何方式剝削、傷害或試圖剝削或傷害未成年人;
生成或傳播可驗證的虛假信息和/或內(nèi)容,以傷害他人為目的;
根據(jù)適用的監(jiān)管要求生成或傳播不適當(dāng)內(nèi)容;
未經(jīng)授權(quán)或者不合理使用而生成或傳播個人身份信息;
誹謗、貶損或以其他方式騷擾他人;
對于完全自動化的決策,對個人的合法權(quán)利產(chǎn)生不利影響或以其他方式產(chǎn)生或修改具有約束力、可執(zhí)行的義務(wù);
任何基于線上或線下社交行為或已知或預(yù)測的個人或性格特征,旨在或具有歧視或傷害個人或團體的效果的使用;
利用特定群體基于其年齡、社會、身體或精神特征的任何弱點,以實質(zhì)性扭曲該群體成員的行為,從而造成或可能造成該人或他人身體或心理傷害;
對于任何旨在或具有基于受法律保護的特征或類別歧視個人或群體的效果的使用。
R1 模型采用的 MIT 許可證沒有列出任何限制。雖然看起來 DeepSeek 許可證比 MIT 許可證增加了很多限制,但是具有實質(zhì)意義的限制大概只有“以任何方式用于軍事用途”這一條,其他限制,無論是否列出,根據(jù)現(xiàn)代國家的法律,基本上都是不符合法律規(guī)定的。
除了以上的限制情形,使用者可以使用 DeepSeek 模型創(chuàng)建任何內(nèi)容、微調(diào)、更新、運行、訓(xùn)練、評估和/或重新參數(shù)化模型。
(二)知識產(chǎn)權(quán)許可
DeepSeek 針對模型、模型衍生品和補充材料授予的許可包括版權(quán)許可和專利許可。許可條款如下:
2.授予版權(quán)許可。根據(jù)本許可的條款和條件,DeepSeek 特此授予您永久、全球、非排他、免費、免版稅、不可撤銷的版權(quán)許可,以復(fù)制、準備、公開展示、公開表演、再授權(quán)和分發(fā)補充材料、模型和模型的衍生品。
3.授予專利許可。根據(jù)本許可的條款和條件以及適用情況, DeepSeek 在此授予您永久、全球、非排他、免費、免版稅、不可撤銷(本段所述情況除外)的專利許可,以制作、委托制作、使用、提供銷售、銷售、進口和以其他方式傳遞模型和補充材料,但此類許可僅適用于 DeepSeek 可授權(quán)且因其貢獻而必然被侵權(quán)的專利權(quán)利要求。如果您對任何實體提起專利訴訟(包括訴訟中的交叉訴訟或反訴),聲稱模型和/或補充材料構(gòu)成直接或共同專利侵權(quán),則根據(jù)本許可授予您的模型和/或作品的任何專利許可應(yīng)在該訴訟主張或提交之日起終止。
授予版權(quán)和專利權(quán)的條款和最常見的 Apache 2.0 許可證的許可條款幾無二致。
(三)分發(fā)和再分發(fā)的條件
如果想把 DeepSeek 模型為第三方遠程訪問目的(例如 SaaS)而托管、復(fù)制和分發(fā)模型或其衍生品的副本(無論是否經(jīng)過修改),分發(fā)者或者再分發(fā)者(統(tǒng)稱“傳播方”)必須滿足以下條件:
a. 傳播方必須將以上使用限制作為可執(zhí)行條款納入任何類型的法律協(xié)議(例如許可證)中,以管理模型或模型衍生品的使用和/或分發(fā),并且應(yīng)當(dāng)通知第三方接收者,模型或模型衍生品均受使用限制的約束。該條件不適用于補充材料的使用?!把a充材料”是指用于定義、運行、加載、基準測試或評估模型的隨附源代碼和腳本,以及用于準備用于訓(xùn)練或評估的數(shù)據(jù)(如有),包括任何隨附文檔、教程、示例等(如有)。
b. 傳播方必須向模型或模型衍生品的任何第三方接收者提供 DeepSeek 許可證的副本;
c. 傳播方如果又進行了修改,則必須在任何修改過的文件上附加顯著的聲明,說明更改了這些文件;
d. 傳播方必須保留所有版權(quán)、專利、商標和歸屬聲明,但不包括與模型、模型衍生品的任何部分無關(guān)的聲明。
e. 傳播方如果進行了修改,傳播方可以在修改中添加自己的版權(quán)聲明,并且為使用、復(fù)制或分發(fā)其修改部分,或整體上為修改后的模型衍生品,提供額外的或不同的許可條款和條件(前提是符合 a 項的使用限制),前提是傳播方對 DeepSeek 模型的使用、復(fù)制和分發(fā)符合 DeepSeek 許可證中規(guī)定的條件。
如果傳播方在分發(fā)或者再分發(fā)時沒有滿足這些條件,那么傳播方就會構(gòu)成違約(對 DeepSeek 許可證這一合同的違反)或者侵權(quán)(侵犯了 DeepSeek 許可證中授予的著作權(quán)以及專利權(quán))。根據(jù)各國法律普遍面臨著停止侵權(quán)、賠償損失的法律責(zé)任。
使用及分發(fā)蒸餾模型有哪些進一步的限制及條件?
DeepSeek 分別基于 Qwen 以及 Llama 模型得出了蒸餾模型。如果需要使用或分發(fā)這些蒸餾模型,除了需要滿足蒸餾模型本身的 MIT 許可證的要求外,還需要滿足基礎(chǔ)模型的許可證要求。Qwen 模型的許可證為 Apache 2.0 許可證,而 Llama 模型為 Llama 許可證。對于傳統(tǒng)的 MIT 和 Apache 2.0 許可證的許可條件此處不再贅述。以 Llama 3.3 許可證為例,許可證第 1 條對于使用和分發(fā)的限制包括:
i.如果您分發(fā)或提供 Llama 材料(或其任何衍生作品)或包含其中任何內(nèi)容的產(chǎn)品或服務(wù)(包括另一個 AI 模型),您應(yīng) (A) 隨任何此類 Llama 材料提供本協(xié)議的副本;以及(B)在相關(guān)網(wǎng)站、用戶界面、博客文章、關(guān)于頁面或產(chǎn)品文檔上突出顯示“使用 Llama 構(gòu)建” 。如果您使用 Llama 材料或 Llama 材料的任何輸出或結(jié)果來創(chuàng)建、訓(xùn)練、微調(diào)或以其他方式改進已分發(fā)或提供的 AI 模型,您還應(yīng)在任何此類 AI 模型名稱的開頭包含“Llama”。
ii. 如果您從被許可方處收到 Llama 材料或其任何衍生作品作為集成最終用戶產(chǎn)品的一部分,則本許可證第 2 條不適用于您。
iii. 您必須在分發(fā)的所有 Llama 材料副本中保留以下歸屬聲明,這些聲明應(yīng)在作為此類副本的一部分而分發(fā)的“聲明”文本文件中發(fā)布:“Llama 3.3 已根據(jù) Llama 3.3 社區(qū)許可獲得許可,版權(quán)所有 Meta Platforms, Inc.保留所有權(quán)利?!?/p>
iv. 您對 Llama 材料的使用必須遵守適用法律和法規(guī)(包括貿(mào)易合規(guī)法律和法規(guī)),并遵守 Llama 材料的可接受使用政策(可在 https://www.llama.com/llama3_3/use-policy 上找到),該政策特此通過引用納入本協(xié)議。
該許可證的第 2 條為附加商業(yè)條款,即對于商業(yè)使用施加的限制:
如果在 Llama 3.3 版本發(fā)布之日,由被許可方或被許可方的關(guān)聯(lián)方提供的產(chǎn)品或服務(wù)的月活躍用戶數(shù)在前一個日歷月超過 7 億月活躍用戶數(shù),則您必須向 Meta 申請許可,Meta 可自行決定是否授予您許可,并且您無權(quán)行使本協(xié)議項下的任何權(quán)利,除非或直到 Meta 明確授予您此類權(quán)利。
DeepSeek 自己是否完全遵守了開源許可證?
DeepSeek-V3 和 DeepSeek-R1 的模型代碼文件 modeling_deepseek.py[7]文件來自 EleutherAI 的 GPT-NeoX 庫以及庫中的 GPT-NeoX 和 OPT 實現(xiàn),且原始形式上進行了修改,以適應(yīng)與訓(xùn)練該模型的 Meta AI 團隊使用的 GPT-NeoX 和 OPT 相比細微的架構(gòu)差異。在 modeling_deepseek.py 文件中,也有多處類似于“# Copied from transformers.models.llama.modeling_llama.LlamaDynamicNTKScalingRotaryEmbedding with Llama->DeepseekV3”的注釋。EleutherAI 的 GPT-NeoX 庫采用 Apache 2.0 許可證[8]。
因此,如果 DeepSeek 集成了按照 Apache2.0 許可證分發(fā)的模型材料,也應(yīng)當(dāng)遵守 Apache 2.0 許可證的規(guī)定;如果 DeepSeek 集成了按照 Llama 許可證分發(fā)的模型材料,也應(yīng)當(dāng)遵守 Llama 許可證的規(guī)定。
DeepSeek 對 Qwen 大模型以及 Llama 大模型進行蒸餾,顯然也應(yīng)當(dāng)遵守 Qwen 大模型所采用的 Apache 2.0 許可證以及 Llama 大模型采用的 Llama 許可證。
按照 Llama 許可證(以 Llama 3.1 為例)的規(guī)定,對于作為分發(fā)者的 DeepSeek,還應(yīng)當(dāng)(A)附隨 Llama 材料提供 Llama 許可證副本;并且(B)在相關(guān)網(wǎng)站、用戶界面、博客文章、關(guān)于頁面、或產(chǎn)品文檔上突出顯示“使用 Llama 構(gòu)建”。從 Llama 模型蒸餾毫無疑問使用了 Llama 模型材料,因此還應(yīng)在任何此類蒸餾模型名稱的開頭包含“Llama”。此外,還應(yīng)當(dāng)在聲明文本文件中保留以下署名聲明:“Llama 3.1 是根據(jù) Llama 3.1 社區(qū)許可證授權(quán),版權(quán)所有 Meta Platforms, Inc.,保留所有權(quán)利?!?/p>
根據(jù)以上的分析,DeepSeek 并未完全遵循開源許可證,主要表現(xiàn)在沒有在相應(yīng)的大模型分發(fā)材料中附隨分發(fā)許可證副本,沒有突出顯示“使用 Llama 構(gòu)建”,也沒有保留署名聲明。
總結(jié)
盡管 DeepSeek 自己本身可能也并未完全遵守開源許可證。但是,白璧微瑕,DeepSeek 驚人的表現(xiàn)又讓世界對于開源大模型有了更高的期待。這也并不代表著其他人在使用和分發(fā) DeepSeek 大模型時就可以有樣學(xué)樣。恰恰相反,使用者或者分發(fā)者更應(yīng)該本著不讓雷鋒吃虧的精神,認真遵循開源許可證中規(guī)定的使用限制條件和分發(fā)條件,構(gòu)建負責(zé)任的人工智能世界。
-
開源
+關(guān)注
關(guān)注
3文章
3688瀏覽量
43828 -
大模型
+關(guān)注
關(guān)注
2文章
3143瀏覽量
4067 -
DeepSeek
+關(guān)注
關(guān)注
1文章
797瀏覽量
1744
原文標題:開源大模型 DeepSeek 到底開放了什么?
文章出處:【微信號:AI科技大本營,微信公眾號:AI科技大本營】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得
【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘
如何使用OpenVINO運行DeepSeek-R1蒸餾模型

HarmonyOS NEXT開發(fā)實戰(zhàn):DevEco Studio中DeepSeek的使用
聆思CSK6大模型語音開發(fā)板接入DeepSeek資料匯總(包含深度求索/火山引擎/硅基流動華為昇騰滿血版)
RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南
DeepSeek扔的第二枚開源王炸是什么

評論