一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微調前給預訓練模型參數增加噪音提高效果的方法

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

昨天看完NoisyTune論文,做好實驗就來了。一篇ACL2022通過微調前給預訓練模型參數增加噪音提高預訓練語言模型在下游任務的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實現,就在自己的數據上進行了實驗,發(fā)現確實有所提高,為此分享給大家;不過值得注意的是,「不同數據需要加入噪音的程度是不同」,需要自行調參。

模型

自2018年BERT模型橫空出世,預訓練語言模型基本上已經成為了自然語言處理領域的標配,「pretrain+finetune」成為了主流方法,下游任務的效果與模型預訓練息息相關;然而由于預訓練機制以及數據影響,導致預訓練語言模型與下游任務存在一定的Gap,導致在finetune過程中,模型可能陷入局部最優(yōu)。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預訓練模型的參數增加少量噪音,給原始模型增加一些擾動,從而提高預訓練語言模型在下游任務的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級擾動(matrix-wise perturbing)方法來增加噪聲,定義預訓練語言模型參數矩陣為,其中,表示模型中參數矩陣的個數,擾動如下:

其中,表示從到范圍內均勻分布的噪聲;表示控制噪聲強度的超參數;表示標準差。

代碼實現如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應用到各種預訓練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發(fā)現在矩陣級均勻噪聲最優(yōu)。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數據量下,NoisyTune方法相對于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強度下,效果提升不同,對于GLUE數據集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結

蠻有意思的一篇論文,加入少量噪音,提高下游微調效果,并且可插拔方便易用,可以納入到技術庫中。

本人在自己的中文數據上做了一些實驗,發(fā)現結果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強度在0.2時最佳,并且在噪聲強度小于0.1或大于0.25后,會比原始效果差。個人實驗結果,僅供參考。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 噪音
    +關注

    關注

    1

    文章

    170

    瀏覽量

    24216
  • 模型
    +關注

    關注

    1

    文章

    3519

    瀏覽量

    50414
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14155

原文標題:ACL2022 | NoisyTune:微調前加入少量噪音可能會有意想不到的效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    ,使用PaddleNLP將FineWeb數據集中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制數據,以便提升訓練效果。 ChatGPT發(fā)布后,當代大語言模型
    的頭像 發(fā)表于 03-21 18:24 ?1663次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    憶聯PCIe 5.0 SSD支撐大模型全流程訓練

    到高頻參數迭代,從模型微調到實時推理,大模型運行的每一個環(huán)節(jié)都需存儲設備在“硬指標”與“軟實力”間達成平衡。從產品可靠性視角出發(fā),憶聯新一代PCIe Gen5 ESSD UH812a/
    的頭像 發(fā)表于 03-11 10:26 ?418次閱讀
    憶聯PCIe 5.0 SSD支撐大<b class='flag-5'>模型</b>全流程<b class='flag-5'>訓練</b>

    YOLOv5類中rgb888p_size這個參數要與模型推理和訓練的尺寸一致嗎?一致會達到更好的效果?

    YOLOv5類中rgb888p_size這個參數要與模型推理和訓練的尺寸一致嗎,一致會達到更好的效果
    發(fā)表于 03-11 08:12

    請問如何能讓模型效果更好?

    重現步驟 我用yolov8n訓練出的模型,跑出來的識別是沒有問題的,問題是在部署到開發(fā)板上,無論是穩(wěn)定性還是框的大小以及識別的準確性都比較差,再試了幾次訓練后的效果還是不好,請問有什么
    發(fā)表于 03-11 07:21

    從Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以將 FastSeg 大型模型轉換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    使用OpenVINO?訓練擴展對水平文本檢測模型進行微調,收到錯誤信息是怎么回事?

    已針對水平文本檢測模型運行OpenVINO?訓練擴展中的 微調 步驟,并收到錯誤消息: RuntimeError: Failed to find annotation files
    發(fā)表于 03-05 06:48

    用PaddleNLP在4060單卡上實踐大模型訓練技術

    手把手教您如何在單張消費級顯卡上,利用PaddleNLP實踐OpenAI的GPT-2模型訓練。GPT-2的訓練關鍵技術與流程與GPT-
    的頭像 發(fā)表于 02-19 16:10 ?995次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調技術解讀

    ,減少了計算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調方法,通過分解模型參數矩陣為低秩矩陣來減少參數
    發(fā)表于 01-14 16:51

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    的應用。MAML算法通過二階優(yōu)化找到對任務變化敏感的模型參數,實現了快速適應。上下文學習則引入了注意力機制,使模型能夠根據當前場景動態(tài)調整行為策略。在
    發(fā)表于 12-24 15:03

    KerasHub統一、全面的訓練模型

    深度學習領域正在迅速發(fā)展,在處理各種類型的任務中,訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這一動向的前沿。Keras 擁有專用的內容庫,如用
    的頭像 發(fā)表于 12-20 10:32 ?498次閱讀

    名單公布!【書籍評測活動NO.52】基于大模型的RAG應用開發(fā)與優(yōu)化

    (相對于訓練的數據量來說)的、已標注的數據上進行再次訓練與強化學習,以使得模型更好地適應特定的場景與下游任務。 顯然,微調是另外一種
    發(fā)表于 12-04 10:50

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    LLM和傳統機器學習的區(qū)別

    訓練方法 LLM: 訓練微調: LLM通常采用訓練(Pre-training)和
    的頭像 發(fā)表于 11-08 09:25 ?1881次閱讀

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和
    的頭像 發(fā)表于 11-05 17:43 ?1400次閱讀

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續(xù)學習

    鷺島論壇數據智能系列講座第4期「訓練的基礎模型下的持續(xù)學習」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目
    的頭像 發(fā)表于 10-18 08:09 ?590次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續(xù)學習