一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NeurIPS 2023 | 大模型時代自監(jiān)督預(yù)訓(xùn)練的隱性長尾偏見

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-10-30 11:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

離開學(xué)校加入公司的業(yè)務(wù)部門已經(jīng)半年多了,往后應(yīng)該會努力抽時間做點(diǎn)開源項(xiàng)目,但暫時沒什么計(jì)劃再發(fā)一作論文了。這次介紹下我和我(前)實(shí)驗(yàn)室一位非常優(yōu)秀的學(xué)弟 beier 合作的一篇 NeurIPS 2023 論文Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models,算是我入職前在學(xué)術(shù)界最后的回響吧。

這次學(xué)弟的文章主要嘗試解決我做長尾問題期間的一個始終縈繞在我腦袋里的疑慮,我覺得長尾領(lǐng)域最大的坎在于明明在研究一個普世的問題,但是學(xué)術(shù)界把問題模型簡化后做出來的算法卻只能在精心設(shè)計(jì)的實(shí)驗(yàn)數(shù)據(jù)集上生效。 這次和學(xué)弟合作的這篇工作得益于模型自監(jiān)督預(yù)訓(xùn)練帶來的優(yōu)秀 OOD 效果和我們提出的 GLA 算法對預(yù)訓(xùn)練模型在下游任務(wù)上偏見的矯正,我們第一次基于長尾問題本身的特性設(shè)計(jì)出了一個通用的提點(diǎn)算法,不僅能在狹義的傳統(tǒng) LT 數(shù)據(jù)集上生效,也能用于其他非 LT 設(shè)定的任務(wù),比如我們的算法可以提升模型在原始的 ImageNet 測試集的效果,還有一些few-shot等其他任務(wù)。

wKgZomU_HoqAK7fvAACrPPIxt-4188.png

論文鏈接:

https://arxiv.org/pdf/2310.08106.pdf

代碼鏈接:

https://github.com/BeierZhu/GLA

wKgZomU_HoqAECPbAAAl6LOgh3c385.png

大模型時代的長尾分布研究該何去何從

在當(dāng)下這個大模型群星閃耀的時代,想必過去兩三年中關(guān)注長尾任務(wù)的同學(xué)都面臨著何去何從的困惑。長尾問題固然普世,除了狹義的類間長尾還有廣義長尾問題 [1],但過去幾年學(xué)術(shù)界中研究的主流長尾算法卻并不同樣普世 以最常見的圖像長尾分類任務(wù)為例,要想大多數(shù)長尾分類算法能夠生效,首先訓(xùn)練過程中的長尾分布就必須是顯性的,要通過統(tǒng)計(jì)具體的類別分布來實(shí)現(xiàn)去偏。而大模型成功的根基,卻恰恰也給傳統(tǒng)長尾算法關(guān)上了大門,因?yàn)榇竽P退蕾嚨淖员O(jiān)督預(yù)訓(xùn)練無法為下游任務(wù)提供一個顯性的長尾分布去矯正。 以大語言模型(如 GPT 等)和多模態(tài)模型(如 CLIP 等)為例,即便近來有一些論文嘗試去研究大模型在下游任務(wù)微調(diào)時的下游數(shù)據(jù)偏見問題,但卻并沒有工作能夠解決大模型預(yù)訓(xùn)練階段本身的數(shù)據(jù)不均衡問題。但我們都知道在海量的預(yù)訓(xùn)練數(shù)據(jù)之下,數(shù)據(jù)的長尾分布是必然的。之所以鮮有人嘗試去研究自監(jiān)督預(yù)訓(xùn)練階段本身的數(shù)據(jù)偏見,是因?yàn)橐朐诖竽P偷淖员O(jiān)督預(yù)訓(xùn)練中研究長尾問題存在三大挑戰(zhàn): 其一,原始文本數(shù)據(jù)的歧義性導(dǎo)致無法精準(zhǔn)的統(tǒng)計(jì)類別的分布。比如以 CLIP 為例,其預(yù)訓(xùn)練目標(biāo)是將圖片與文本配對,而下游的視覺端 backbone 可以用作圖像分類任務(wù),但此時如果下游是一個 {human, non-human} 的二分類,我們并不能直接用 human 關(guān)鍵詞的出現(xiàn)與否作為預(yù)訓(xùn)練數(shù)據(jù)分布的統(tǒng)計(jì)標(biāo)準(zhǔn),比如包含 a worker 的圖片雖然沒有 human 這個詞但也應(yīng)該被統(tǒng)計(jì)為 human,因此文本天然的歧義和多意會給長尾分布研究帶來極大的困難和偏差。 其二,預(yù)訓(xùn)練任務(wù)與下游任務(wù)的弱耦合導(dǎo)致無法明確數(shù)據(jù)分布的統(tǒng)計(jì)方式。大模型的強(qiáng)大之處在于可以通過一個簡單有效的預(yù)訓(xùn)練支撐花樣百出的下游任務(wù),然而這卻大大增加了研究預(yù)訓(xùn)練數(shù)據(jù)偏見對下游任務(wù)影響的難度。比如 GPT 等大語言模型的預(yù)訓(xùn)練是預(yù)測下一個或是缺失的 Token,雖然我們可以統(tǒng)計(jì) Token 的詞頻,但如果我們的下游任務(wù)是對文本的語氣進(jìn)行三分類 {positive, neutral, negative}。 此時單純統(tǒng)計(jì) positive,neutral 和 negative 這三個詞在預(yù)訓(xùn)練中的詞頻顯然并不完全合適,因?yàn)檫@幾個詞出現(xiàn)的場景并非都是語氣分類,要想精準(zhǔn)統(tǒng)計(jì)不僅困難,其具體的下游任務(wù)更是無法在預(yù)訓(xùn)練階段知曉的(下游任務(wù)太多了,模型提供者并不能知道模型被其他人拿到后會如何使用)。 最后,也是最重要的,預(yù)訓(xùn)練數(shù)據(jù)的保密性也是不得不考慮的問題,出于用戶隱私和商業(yè)機(jī)密的考量,一個開源公司即便開放了大模型參數(shù)往往也不會開放預(yù)訓(xùn)練數(shù)據(jù),這使得研究預(yù)訓(xùn)練數(shù)據(jù)的分布變得幾乎不可能。這也是目前鮮有該方面研究的主要原因之一。而在我們最新的工作中,我們不僅實(shí)現(xiàn)了在下游任務(wù)直接估計(jì)預(yù)訓(xùn)練的偏見,更是完全規(guī)避了對預(yù)訓(xùn)練數(shù)據(jù)本身的訪問,使得我們可以在只有模型權(quán)重沒有預(yù)訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)對自監(jiān)督預(yù)訓(xùn)練模型的去偏。

wKgZomU_HoqAH3o0AAAuhh9-KLM141.png

自監(jiān)督預(yù)訓(xùn)練引入的數(shù)據(jù)偏見

wKgZomU_HoqAJjVqAAHTQctOlo0444.png

▲ 圖一:自監(jiān)督預(yù)訓(xùn)練階段引入的長尾數(shù)據(jù)偏見(可從 zero-shot 分類效果看出其對模型效果的影響)

目前大多數(shù)預(yù)訓(xùn)練模型魯棒性相關(guān)的研究中,他們往往會把自監(jiān)督預(yù)訓(xùn)練模型本身當(dāng)作是一個無偏的基準(zhǔn),而強(qiáng)調(diào)模型在下游任務(wù)上微調(diào)時會引入下游任務(wù)的偏見,因此需要對下游任務(wù)去偏的同時盡可能保留預(yù)訓(xùn)練模型的魯棒性,其中代表作有利用 zero-shot 模型和微調(diào)模型 Ensemble 的 WiSE-FT [2] 和利用梯度約束的 ProGrad [3]。但正如我上文說的,預(yù)訓(xùn)練數(shù)據(jù)的偏見同樣無法忽視,這導(dǎo)致上述模型從理論上便不可能是最優(yōu)的。 事實(shí)上早在兩年前,長尾問題領(lǐng)域便有人嘗試?yán)米员O(jiān)督學(xué)習(xí)來提取特征,并認(rèn)為無需顯性標(biāo)注的自監(jiān)督 loss 可以大大緩解模型的長尾偏見問題。于是在我們的工作開始前,我們首先便要推倒這個假設(shè)。自監(jiān)督預(yù)訓(xùn)練并不是一味萬能藥。如圖一所示,我們將 CLIP-ViT/B16 預(yù)訓(xùn)練模型在下游的 ImageNet 測試集上的分類效果按我們估計(jì)的類別分布(可視化中進(jìn)行了平滑處理)進(jìn)行排序,我們發(fā)現(xiàn)自監(jiān)督預(yù)訓(xùn)練模型同樣有著明顯的長尾偏見(zero-shot 結(jié)果),尾部類別的準(zhǔn)確率會有明顯的下滑。 尤其是當(dāng)我們將 zero-shot 結(jié)果和微調(diào)結(jié)果(fine-tune)對比時,我們就會看到他們的頭部類別效果相當(dāng),而尾部類別 zero-shot 模型明顯更差,也就是說自監(jiān)督預(yù)訓(xùn)練模型的長尾問題其實(shí)很嚴(yán)重,模型在下游任務(wù)上微調(diào)時其實(shí)類似于在一個更均衡的數(shù)據(jù)集上微調(diào)去提升尾部效果。 至于為什么之前的論文認(rèn)為預(yù)訓(xùn)練模型魯棒性更高,這就需要了解我之前一篇工作中提及的類間長尾和類內(nèi)長尾兩個概念的區(qū)別了,我認(rèn)為預(yù)訓(xùn)練的魯棒性更多的體現(xiàn)在類內(nèi)分布的魯棒性上,本文在這暫不展開,有興趣的同學(xué)可以看我另一篇文章(ECCV 2022 | 計(jì)算機(jī)視覺中的長尾分布問題還值得做嗎?)。 此時單純 zero-shot 和 fine-tune 的 Ensemble 模型 WiSE-FT 更像一個 Trade-off,用尾部的損失去提升頭部性能。而我們提出的 Generalized Logit Adjustment(GLA)通過在 Ensemble 之前先消除預(yù)訓(xùn)練 zero-shot 模型的長尾偏見來有效的實(shí)現(xiàn)了頭尾全分布的同時提升。 而我們之所以叫 Generalized Logit Adjustment 是為了致敬在經(jīng)典的狹義長尾分布任務(wù)上的一個非常優(yōu)雅且有效的算法 Logit Adjustment [4]。之所以無法簡單的套用到自監(jiān)督預(yù)訓(xùn)練上,其實(shí)最重要的一個難點(diǎn)就是我上面說到的預(yù)訓(xùn)練分布估計(jì)了。而僅利用模型參數(shù)不獲取預(yù)訓(xùn)練數(shù)據(jù)就能在下游任務(wù)上估計(jì)預(yù)訓(xùn)練階段數(shù)據(jù)偏見的算法也是我們文章的主要貢獻(xiàn)之一。 wKgZomU_HoqAB3zLAAAtJ0fTuoM163.png

預(yù)訓(xùn)練數(shù)據(jù)中下游任務(wù)的類別分布估計(jì)

在本文中,我們主要以 CLIP 為引子,討論以圖文對比學(xué)習(xí)作為自監(jiān)督預(yù)訓(xùn)練的多模態(tài)模型(主要是視覺端),不過本文提出的算法也可以推廣至以文本自監(jiān)督預(yù)訓(xùn)練為基礎(chǔ)的大語言模型在下游文本分類任務(wù)上的偏見估計(jì)問題。 在給出本文提供的預(yù)訓(xùn)練階段數(shù)據(jù)偏見估計(jì)算法之前,我們需要回顧一篇我非常推崇的 Google 的 Logit Adjustment 長尾算法。在不考慮類內(nèi)不均衡 OOD 樣本的情況下,Logit Adjustment 研究已經(jīng)從理論上提供了非常優(yōu)雅的最優(yōu)解:傳統(tǒng)分類問題的概率模型 可以通過貝葉斯分解為如下形式 。那么在訓(xùn)練集與測試集獨(dú)立同分布(IID)的情況下,我們自然而然可以得到如下的設(shè),也就是說對于分類模型 唯一的類別 bias 來自 中的第二項(xiàng) 。那么問題就簡單了,我們可以直接通過 來將類別分布從訓(xùn)練分布更改為測試分布。如果以類別均衡的驗(yàn)證集上的結(jié)果作為模型在無偏見下的表現(xiàn)的衡量標(biāo)準(zhǔn), 就是平均分布,那么我們就可以去掉最后一項(xiàng) 。基于上文的 Logit Adjustment 長尾算法,我們不難發(fā)現(xiàn),只要能給出自監(jiān)督預(yù)訓(xùn)練模型的分布 ,我們就可以得到模型在類別均衡驗(yàn)證集上的理論最優(yōu)解(給定模型 backbone 下)。那么換而言之,我們也可以利用這一特性來反向計(jì)算 ,如圖二所示,只要能提供一個額外的類別均衡的子集,我們就可以通過最小化 Risk 去學(xué)習(xí)一個對模型輸出的 logits 的偏置項(xiàng),即通過最小化均衡子集上的誤差去估計(jì) 詳細(xì)的理論推導(dǎo)和最優(yōu)保證請參考我們的原文和原文的補(bǔ)充材料。

wKgZomU_HouACwV9AAFki4sNuOw939.png

▲ 圖二:以 Logit Adjustment 推導(dǎo)結(jié)果的理論最優(yōu)解為前提,反向通過一個均衡子集去估計(jì)偏置項(xiàng)。

基于上述預(yù)訓(xùn)練偏見估計(jì)的算法,我們不僅不需要獲取預(yù)訓(xùn)練數(shù)據(jù),更不需要預(yù)訓(xùn)練過程是嚴(yán)格的傳統(tǒng)分類 loss,任意分類模型都可以僅僅通過權(quán)重本身在一個均衡子集上估算出其訓(xùn)練階段積累的偏見。為了更好的體現(xiàn)我們的去偏效果,我們也可視化了我們的去偏算法在 CLIP zero-shot 模型的去偏效果,詳見圖三。

wKgZomU_HouAJrihAAIXG6OA5kQ748.png

▲ 圖三:模型在 CLIP 模型的 zero-shot 輸出結(jié)果上的去偏效果 wKgZomU_HouAJg5SAAAr2pbNr48184.png通用Logit矯正算法(GLA)應(yīng)用于任意下游數(shù)據(jù)分布上述偏見估計(jì)算法雖然提供了解決模型在 zero-shot 設(shè)定下的預(yù)訓(xùn)練偏見矯正問題,但是其取得的最優(yōu)僅限于類別均衡的下游數(shù)據(jù)。但目前最優(yōu)的模型還是利用 zero-shot 模型和微調(diào)模型 Ensemble 的 WiSE-FT [2],因?yàn)樗麄兂私鉀Q類間的不均衡,還通過微調(diào)更好的適配了下游數(shù)據(jù)分布 。 那么微調(diào)模型的偏見又該如何解決呢?如果下游任務(wù)提供的微調(diào)數(shù)據(jù)本身還帶有不均衡分布 ,且往往 ,我們還需要額外對微調(diào)模型 去偏,這里我們略過具體的推導(dǎo)和理論分析,先給出結(jié)論:我們認(rèn)為如果微調(diào)模型在下游數(shù)據(jù)上收斂后,其所帶的偏見就是下游數(shù)據(jù) 的偏見,可以用原始 Logit Adjustment 解決。綜上,我們提出的 Generalized Logit Adjustment 框架就可以總結(jié)為如下公式:

wKgZomU_HouAWyX2AAAbyoWAJHo921.png

其中 為原始預(yù)訓(xùn)練模型的 zero-shot 預(yù)測, 為預(yù)訓(xùn)練模型在任意下游分布上微調(diào)后的預(yù)測, 為下游微調(diào)數(shù)據(jù)的分布(可直接統(tǒng)計(jì)), 為預(yù)訓(xùn)練模型累計(jì)的偏見(通過第三節(jié)提出的算法間接估計(jì)),而 就是最后的無偏最優(yōu)估計(jì)。我們新提出的 GLA 算法在保留了原始 LA 算法的優(yōu)雅和簡介的同時,將該算法覆蓋到更復(fù)雜的預(yù)訓(xùn)練+微調(diào)融合場景,解決了自監(jiān)督預(yù)訓(xùn)練模型無法估計(jì)預(yù)訓(xùn)練數(shù)據(jù)偏見的問題。 wKgZomU_HouAbotJAAAtTL4L6hI067.pngGLA算法的最終效果值得注意的是,GLA 算法據(jù)我所知是首個能“真正體現(xiàn)”長尾問題廣泛性的算法,該算法以長尾問題為切入點(diǎn),但最后得到的模型不僅在長尾分類任務(wù)上有提升,更在經(jīng)典分類任務(wù)與數(shù)據(jù)上,在 few-shot 任務(wù)上等都有提升。是第一個做到利用長尾算法提升傳統(tǒng)分類任務(wù)的工作。 經(jīng)典分類場景(非 Long-Tailed,F(xiàn)ew-shot 等細(xì)分場景):在傳統(tǒng)分類設(shè)定上,我們利用 CLIP ViT-B/32 和 ViT-B/16 兩個模型,在 ImageNet,CIFAR100,Stanford Cars 和 SUN397 上都取得了顯著的提升:

wKgZomU_HouAVSOIAAEL-LsZrjM562.png

GLA 在 ImageNet 上提升的詳細(xì)分析圖表(根據(jù)估計(jì)分布將類別劃分為 Head, Med, Tail,注意這里不是強(qiáng)行設(shè)置的 LT 設(shè)定,而是真實(shí)數(shù)據(jù)據(jù)分布);GLA 在多個基于 ImageNet 的魯棒性測試子集上的效果,我們基本與 WiSE-FT 持平且互有勝負(fù),證明我們的提升不是犧牲魯棒性的過擬合。

wKgZomU_HoyAbN6JAAEh4Hi4dIE529.png

GLA 在 CLIP 的 11 個 few-shot 測試數(shù)據(jù)上的效果:

wKgZomU_HoyAAVYwAAQyDkhFoxo374.png

GLA 在 Few-shot 設(shè)定中的分布魯棒性,以 16shot 為例;對比單純的 Ensemble,我們可以發(fā)現(xiàn) GLA 模型基本不會出現(xiàn)負(fù)提升的問題,這是因?yàn)槲覀儗蓚€模型都進(jìn)行了去偏,真正的做到了各取所長:

wKgZomU_HoyADE7uAAFioOpGF5M494.png

wKgZomU_Ho2AFiA1AADS95iyJgM746.pngGLA 在傳統(tǒng) Long-Tail 設(shè)定數(shù)據(jù)集上提升:

wKgZomU_Ho2ANWoAAAKXPEAvZ5U540.png

wKgZomU_Ho2AZf8FAAAvmrE3n7I158.png總結(jié)

研究長尾問題對各個任務(wù)的具體影響可以說是貫穿我的博士生涯,從我研究開始該領(lǐng)域內(nèi)便有個共識就是長尾問題是普世的,是任何實(shí)際問題都繞不開的坎。但奈何長尾問題卻又無比復(fù)雜,不僅有類間長尾還有類內(nèi)屬性長尾,因此學(xué)術(shù)界不得不對任務(wù)做了很多簡化,但這也導(dǎo)致了長尾問題明明是個普世的問題,該領(lǐng)域的算法卻只能在精心設(shè)計(jì)的實(shí)驗(yàn)室環(huán)境下生效。

而如今大模型時代借助于預(yù)訓(xùn)練模型本身對于 OOD 的魯棒性,以及我們提出的預(yù)訓(xùn)練偏見估計(jì)算法對于分布的矯正,我們終于拼上了最后一塊拼圖,第一次提出一個基于分布矯正和 Ensemble 的真正通用的長尾算法,可以在實(shí)際問題實(shí)際應(yīng)用中提升各種任務(wù)的表現(xiàn),而不僅限于精心設(shè)計(jì)的長尾數(shù)據(jù)集。

我們也希望這個研究可以為大模型時代的研究者打開一扇研究預(yù)訓(xùn)練分布偏見的大門,而不用因?yàn)闊o法訪問預(yù)訓(xùn)練數(shù)據(jù)在大模型偏見研究的門口束手無策。希望這篇文章沒有浪費(fèi)大家的時間,能給大家以啟發(fā)。

@inproceedings{zhu2023generalized,
title={GeneralizedLogitAdjustment:CalibratingFine-tunedModelsbyRemovingLabelBiasinFoundationModels},
author={Zhu,BeierandTang,KaihuaandSun,QianruandandZhang,Hanwang},
journal={NeurIPS},
year={2023}
}

wKgZomVA6_SAbHzvAAAC0jQz1zo317.svg

參考文獻(xiàn)

wKgZomVA6_SAbHzvAAAC0jQz1zo317.svg ?[1] https://arxiv.org/abs/2207.09504[2] https://arxiv.org/abs/2109.01903[3] https://arxiv.org/abs/2205.14865[4] https://arxiv.org/abs/2007.07314

·


原文標(biāo)題:NeurIPS 2023 | 大模型時代自監(jiān)督預(yù)訓(xùn)練的隱性長尾偏見

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:NeurIPS 2023 | 大模型時代自監(jiān)督預(yù)訓(xùn)練的隱性長尾偏見

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型時代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類顯卡 RTX-4090只需大約35~40個小時 ,即可完成ResNet50模型預(yù)訓(xùn)練。在 大模型
    的頭像 發(fā)表于 04-25 11:43 ?274次閱讀
    大<b class='flag-5'>模型</b><b class='flag-5'>時代</b>的深度學(xué)習(xí)框架

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對大語言模型
    的頭像 發(fā)表于 03-21 18:24 ?1700次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    從Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無法導(dǎo)入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓(xùn)練一個大語言模型需要投資多少錢》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對大模型
    的頭像 發(fā)表于 02-19 16:10 ?1019次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型
    發(fā)表于 01-14 16:51

    基于移動回歸的時序擴(kuò)散預(yù)測模型

    回歸取得了比傳統(tǒng)基于噪聲的擴(kuò)散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預(yù)測領(lǐng)域,當(dāng)前主流的擴(kuò)散方法還是傳統(tǒng)的基于噪聲的方法,未能充分利用回歸技術(shù)實(shí)現(xiàn)時
    的頭像 發(fā)表于 01-03 14:05 ?904次閱讀
    基于移動<b class='flag-5'>自</b>回歸的時序擴(kuò)散預(yù)測<b class='flag-5'>模型</b>

    知行科技大模型研發(fā)體系初見效果

    11月,知行科技作為共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以預(yù)訓(xùn)練ViT(視覺
    的頭像 發(fā)表于 12-27 09:38 ?635次閱讀
    知行科技大<b class='flag-5'>模型</b>研發(fā)體系初見效果

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這一動向的前沿。Keras 擁有專用的內(nèi)容庫,如用
    的頭像 發(fā)表于 12-20 10:32 ?502次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個簡稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來的及大<b class='flag-5'>模型</b>作用

    時空引導(dǎo)下的時間序列監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個組織聯(lián)合發(fā)布了一篇時間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)
    的頭像 發(fā)表于 11-15 11:41 ?773次閱讀
    時空引導(dǎo)下的時間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)框架

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學(xué)術(shù)盛宴!|直播信息報(bào)告題目預(yù)
    的頭像 發(fā)表于 10-18 08:09 ?610次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    模型時代的算力需求

    現(xiàn)在AI已進(jìn)入大模型時代,各企業(yè)都爭相部署大模型,但如何保證大模型的算力,以及相關(guān)的穩(wěn)定性和性能,是一個極為重要的問題,帶著這個極為重要的問題,我需要在此書中找到答案。
    發(fā)表于 08-20 09:04

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 監(jiān)督學(xué)習(xí):模型采用
    發(fā)表于 08-02 11:03

    蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預(yù)訓(xùn)練

    蘋果公司在最新的技術(shù)論文中披露了一項(xiàng)重要信息,其全新的人工智能系統(tǒng)Apple Intelligence所依賴的模型并非傳統(tǒng)上大型科技公司首選的NVIDIA GPU,而是選擇了在谷歌設(shè)計(jì)的云端芯片上進(jìn)行預(yù)訓(xùn)練。這一決定不僅打破了行
    的頭像 發(fā)表于 07-30 15:00 ?854次閱讀