DeepSeek的橫空出圈,仿佛重現(xiàn)了兩年前ChatGPT風(fēng)靡全球的盛況。其開源策略和低成本的模式,正推動人工智能迎來一波新的發(fā)展浪潮。卓越模型能力的背后,DeepSeek在技術(shù)上有哪些創(chuàng)新?它又將如何改變我們的生活和產(chǎn)業(yè)?
2月15日,訊飛開放平臺攜手Datawhale、城西大走廊高聯(lián)會在位于杭州的浙江大學(xué)校友企業(yè)總部經(jīng)濟(jì)園舉辦了2025年開發(fā)者TALK首站活動。來自訊飛開放平臺以及行業(yè)、研究機(jī)構(gòu)的技術(shù)專家們,揭秘DeepSeek核心技術(shù)、分享DeepSeek精調(diào)方法和應(yīng)用構(gòu)建,為線上線下4000+開發(fā)者帶來了一場干貨滿滿的分享。
全方位模型服務(wù),助力開發(fā)者應(yīng)用創(chuàng)新
自2022年大模型發(fā)布以來,大模型應(yīng)用呈現(xiàn)爆發(fā)式增長,逐步邁入“深水區(qū)”,與場景的結(jié)合也愈發(fā)緊密,行業(yè)內(nèi)逐步形成共識:通用模型+專有云模型才能更好地解決場景問題。
目前,大模型應(yīng)用主要是模型能力+數(shù)據(jù),能力有通用能力與定制能力,數(shù)據(jù)有通用數(shù)據(jù)與個性化數(shù)據(jù)。例如,AI+代碼是典型的“通用能力+通用數(shù)據(jù)能力”簡單組合;AI+會議是“通用能力+個性化數(shù)據(jù)”簡單組合。未來大模型更好地進(jìn)入企業(yè)一定是定制能力+個性化數(shù)據(jù)的多能力復(fù)雜組合。而未來大模型開發(fā)的機(jī)會在:模型能力定制化、產(chǎn)品能力復(fù)雜化、數(shù)據(jù)能力個性化。訊飛星辰MaaS平臺總監(jiān)張林芳在《訊飛星辰MaaS平臺模型定制到智能體構(gòu)建》主題分享中表示。
應(yīng)對模型能力定制化需求,訊飛發(fā)布的星辰MaaS平臺,提供包含數(shù)據(jù)構(gòu)建、模型選型、精調(diào)訓(xùn)練、效果評估、大模型云+端托管以及數(shù)據(jù)回流的成熟精調(diào)流水線,助力開發(fā)者高效完成效果定制,構(gòu)建數(shù)據(jù)飛輪,持續(xù)推進(jìn)大模型迭代。其中,在模型選型上,星辰MaaS平臺秉承開放理念,支持星火+主流開源的36個模型精調(diào),開放人設(shè)、醫(yī)療等場景模型精調(diào)。近期,已經(jīng)業(yè)界首發(fā)了DeepSeek全系模型精調(diào),推理API限時免費(fèi),支持獨(dú)享部署,即銷即用。
應(yīng)對產(chǎn)品能力組合復(fù)雜化需要,訊飛發(fā)布了星辰智能體應(yīng)用開發(fā)平臺。星辰智能體應(yīng)用開發(fā)平臺以MoM混合應(yīng)用架構(gòu)為核心,提供從應(yīng)用開發(fā)到測試、優(yōu)化一整套大模型應(yīng)用開發(fā)工具鏈。支持訊飛1+N模型,開源優(yōu)質(zhì)DeepSeek模型,和所有微調(diào)模型組合構(gòu)建應(yīng)用。面對硬件產(chǎn)品接入大模型遇到的業(yè)務(wù)需求、開發(fā)技術(shù)棧、軟硬環(huán)境等問題,星辰智能體應(yīng)用開放平臺提供了專門的SDK開發(fā)框架,讓開發(fā)者專注于硬件產(chǎn)品創(chuàng)新,用最短路徑實(shí)現(xiàn)產(chǎn)品成功。
應(yīng)對數(shù)據(jù)能力個性化需求,訊飛則首發(fā)了混域搜索技術(shù),支持個人私域知識,企業(yè)知識庫以及IT系統(tǒng)私域知識,和互聯(lián)網(wǎng)信息進(jìn)行統(tǒng)一的搜集分析,形成大模型外掛知識。通過這套技術(shù),知識召回準(zhǔn)確率提升30%,長文本知識融合準(zhǔn)確率提升40%,句子級知識溯源準(zhǔn)確率達(dá)90%。
從R1-Zero到R1,揭秘DeepSeek核心技術(shù)
DeepSeek展現(xiàn)出的強(qiáng)大推理能力,讓人震驚的同時,也讓許多開發(fā)者對其背后的技術(shù)細(xì)節(jié)充滿興趣。它在技術(shù)上有哪些突破?哪些是站在前人的肩膀上優(yōu)化的?哪些是自己的原創(chuàng)創(chuàng)新?在現(xiàn)場,Datawhale Hugging LLM開源項(xiàng)目負(fù)責(zé)人長琴深度剖析了DeepSeek的核心技術(shù)點(diǎn),期望能為開發(fā)者研究大模型帶來啟發(fā)。
首先是基于純規(guī)則強(qiáng)化學(xué)習(xí)的DeepSeek-R1-Zero,不僅在訓(xùn)練過程中展現(xiàn)出的思考和自我反思能力,使語言模型更接近人類的思維方式,而且效果還不錯。當(dāng)然,瑕疵是語言混合和可讀性不友好。緊跟著就是兩個問題:少量高質(zhì)量數(shù)據(jù)SFT后能否讓后續(xù)的RL效果進(jìn)一步變好?模型能否同時兼容推理和通用模式?R1通過先用少量高質(zhì)量數(shù)據(jù)SFT模型作為R1-Zero的起點(diǎn)(冷啟動),然后使用R1-Zero的RL方法(增加了語言一致性,讓結(jié)果更可讀)訓(xùn)練得到的模型來生成高質(zhì)量數(shù)據(jù),然后再做SFT和對齊,使得模型不僅在推理任務(wù)上表現(xiàn)出色,在非推理的常規(guī)任務(wù)上也取得了優(yōu)異的效果。
DeepSeek-R1的相關(guān)技術(shù)研究也給開發(fā)者帶來諸多啟示。比如Oat-Zero的相關(guān)研究發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)(RL)能將Base的表面自我反思轉(zhuǎn)化為有效自我反思,但是長度并不一定增加,而且Base模型也會Aha Moment;再比如DeepScaleR的相關(guān)研究中發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)(RL) 縮放也可以表現(xiàn)在小模型 (1.5B) 中,高質(zhì)量的SFT+RL結(jié)合能達(dá)到更好效果;再比如LIMO、s1等相關(guān)研究中發(fā)現(xiàn) 少量SFT(1000條)同樣可以激活推理能力;以及模型越大越新越好、無論Instruct還是Base模型都可以驗(yàn)證R1-Zero等。長琴在分享中提到。
AI驅(qū)動科研范式變革,開啟新的大航海時代
從藥物研發(fā)到農(nóng)業(yè)育種,從氣象預(yù)測到海洋智能預(yù)報,AI正在改變?nèi)祟愡M(jìn)行科學(xué)研究的方式。2024年的諾貝爾物理學(xué)獎、化學(xué)獎都頒給AI領(lǐng)域,再次將AI推到了科學(xué)舞臺的中央,標(biāo)志著AI在科學(xué)研究中的重要地位得到了認(rèn)可。
AI For Science的典型案例就是蛋白質(zhì)折疊模型AlphaFold。傳統(tǒng)方法每年只能解析少量蛋白質(zhì)結(jié)構(gòu),Alphafold已經(jīng)預(yù)測了超過2億種蛋白質(zhì)結(jié)構(gòu),推動了生命科學(xué)的巨大進(jìn)步,已擁有來自190個國家的200多萬用戶。以此模型為基礎(chǔ),對于科研設(shè)備、科學(xué)人員、科學(xué)數(shù)據(jù)和科學(xué)流程都有很大的幫助。之江實(shí)驗(yàn)室助理研究員張驥在分享中舉例說。
AI正在開啟人類科學(xué)發(fā)展新的大航海時代。張驥認(rèn)為,在AI驅(qū)動科學(xué)范式變革方面,模型、數(shù)據(jù)、算力是關(guān)鍵因素。
在科研領(lǐng)域,中國科學(xué)院文獻(xiàn)情報中心與科大訊飛股份有限公司共同研發(fā)的基于科技文獻(xiàn)大模型的智能知識服務(wù)平臺——星火科研助手,幫助研究人員對文獻(xiàn)進(jìn)行深度解讀、提煉,提升科研效率。累計服務(wù)科研用戶9.3萬人,功能調(diào)用次數(shù)240萬次+,用戶覆蓋全國1300多所高校。用戶可在訊飛星火APP/網(wǎng)頁端搜索“星火科研助手”體驗(yàn)。
融合行業(yè)場景,生成式AI驅(qū)動機(jī)器人行業(yè)變革
陸地、隧道、天上、水里,各類形態(tài)的智能機(jī)器人正在不同行業(yè)應(yīng)用,尤其是在工業(yè)領(lǐng)域,機(jī)器人不僅能保障人員安全,還可大大提高工作的效率和準(zhǔn)確性。生成式AI技術(shù)的出現(xiàn)也為機(jī)器人行業(yè)帶來了根本性變化。
從ANI(狹義人工智能)和AGI(通用人工智能)的區(qū)別出發(fā),申昊科技算法工程師鄭程睿介紹了公司在故障檢測、數(shù)字孿生、醫(yī)院查房機(jī)器人和人形機(jī)器人四款應(yīng)用上,進(jìn)行的大模型技術(shù)探索。以檢測輸電塔是否有鳥巢為例,因?yàn)槲锢韴鼍皵?shù)據(jù)很稀少,運(yùn)用無人機(jī)逐個進(jìn)行拍照成本過高,而利用少量圖片訓(xùn)練Stable Diffusion和LoRA模型生成多樣化的圖像,則可以做到降本增效。
對于具身智能未來的發(fā)展,鄭程睿認(rèn)為,當(dāng)前具身智能的發(fā)展仍處于初級階段,未來具身智能應(yīng)該是兩種大模型:視覺語言動作模型和視覺語言導(dǎo)航模型,也可以與深度思考推理模型結(jié)合。
除了精彩的演講之外,本次活動還設(shè)置了AI面對面交流環(huán)節(jié)。與會開發(fā)者以分組的形式圍繞“DeepSeek的應(yīng)用創(chuàng)新、大模型未來發(fā)展趨勢”等問題,與分享嘉賓進(jìn)行了討論。
DeepSeek的爆火不僅從技術(shù)到產(chǎn)業(yè)帶來了一場前所未有的技術(shù)變革,也為開發(fā)者帶來了前所未有的機(jī)遇。現(xiàn)在,進(jìn)入訊飛星辰MaaS平臺官網(wǎng),通過DeepSeek精調(diào)服務(wù),開發(fā)者即可在極短時間內(nèi)(最快15分鐘)以超低成本(最低僅需數(shù)元)打造專屬定制模型,創(chuàng)建新的AI應(yīng)用。
致力于通過前沿技術(shù)分享、優(yōu)秀項(xiàng)目分享推介、面對面討論,為來自企業(yè)、高校、科研院所的開發(fā)者提供沉浸式學(xué)習(xí)與交流平臺。自2023年11月22日開啟第一站以來,開發(fā)者TALK在深圳、武漢、南京、成都等地留下足跡,鏈接了上千名開發(fā)者,幫助他們將想法變成了更多的創(chuàng)意和落地案例,推動人工智能產(chǎn)業(yè)繁榮。
AI技術(shù)的發(fā)展日新月異,2025年,開發(fā)者TALK將繼續(xù)舉辦多形式活動,聆聽開發(fā)者需求,幫助開發(fā)者便捷地將大模型技術(shù)應(yīng)用在實(shí)際業(yè)務(wù)中。
-
訊飛開放平臺
+關(guān)注
關(guān)注
0文章
19瀏覽量
11692 -
大模型
+關(guān)注
關(guān)注
2文章
3146瀏覽量
4069 -
DeepSeek
+關(guān)注
關(guān)注
1文章
798瀏覽量
1745
原文標(biāo)題:揭秘DeepSeek核心技術(shù)與應(yīng)用構(gòu)建 | 開發(fā)者TALK開年首站落地杭州
文章出處:【微信號:訊飛開放平臺,微信公眾號:訊飛開放平臺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得
【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘
科通技術(shù)推出DeepSeek+AI芯片全場景方案
取樣示波器的技術(shù)原理和應(yīng)用場景
DeepSeek的100個應(yīng)用場景
敏捷合成器的技術(shù)原理和應(yīng)用場景
直接數(shù)字式頻譜分析儀的技術(shù)原理和應(yīng)用場景
了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應(yīng)用選擇
時域反射計的技術(shù)原理和應(yīng)用場景
深入探討DeepSeek大模型的核心技術(shù)

評論