一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型微調數(shù)據(jù)選擇和構造技巧

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-12-20 14:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型場景微調里面,最關鍵地的一個是問題是:

選擇什么樣的數(shù)據(jù)微調?

大的方向上大家都能把握,大概無非是要注意數(shù)據(jù)的多樣性,要注意數(shù)據(jù)的質量,那在實踐中有哪些技巧呢?

比如我們會經常遇到下面幾種情況:

1.數(shù)據(jù)要不要都去標注,標的比較慢咋辦?

2.我已經有一批標好的數(shù)據(jù)了,再去選哪些數(shù)據(jù)送標注比較好?

3.能不能總結出一套數(shù)據(jù)構造方面自動化的方法?

其實在大模型之前,就有很多人研究過這樣的問題。在做一個模型時候,比如簡單的文本分類,我不可能一股腦把所有數(shù)據(jù)都扔給標注,這樣干存在一個問題,一般情況下我們數(shù)據(jù)的分布都是符合一個長尾分布的。主要的幾個類別數(shù)據(jù)占據(jù)了90%的數(shù)據(jù)量,剩下的90%的類別只有10%的數(shù)據(jù)量。

比如小紅書上,query的意圖識別里,美食,穿搭,旅游攻略類非常多,但是還有一些同學去搜大模型微調的數(shù)據(jù)技巧。

如果說我們直接采樣一批線上的圖文文本,直接送給標注的話,會存在一個嚴重的問題:他們標注的數(shù)據(jù)大部分都是攻略類,技術類比較少,標了3個月才攢了幾千條大模型技術文本,但是攻略類已經成幾萬了。

這樣搞肯定是不行的,人力成本方面的消耗是在是太大了,并且模型因為數(shù)據(jù)平衡的問題也沒有特別好,我們有沒有辦法去優(yōu)化這個過程呢?

在大模型微調里面對應的生成小紅書文案場景,同樣的問題也是爬來的數(shù)據(jù)就可以直接用嗎?

大家都有個直觀的答案,就是去重,那我們再考慮模型上數(shù)據(jù)的迭代呢?如果數(shù)據(jù)是分階段爬去的怎么辦?已經有一批人工處理的的高質量數(shù)據(jù)怎么辦?

但其實從監(jiān)督學習的演進來看,這套東西其實已經被研究的很多了,用一個技術名詞叫 “主動學習”。

主動學習有兩個基本原則,在監(jiān)督訓練的時候,注意主動發(fā)現(xiàn)數(shù)據(jù)的兩個方面,一個是數(shù)據(jù)多樣性,另外一個是數(shù)據(jù)的不確定性。這樣講是比較抽象的概念,那我們在大模型實踐中如何體現(xiàn)呢?

第一,數(shù)據(jù)的多樣性。

多樣性即為數(shù)據(jù)的去重,去重這件事的核心是相似度度量,現(xiàn)在的相似度度量方法大家用的比較多的是基于對比學習構造的語義向量這套思路,當然簡單的基于詞袋或者tfidf的方案也是可以的。有了核心的相似度度量方法后,我們可以使用簡單的onepass聚類方法進行過濾,考慮復雜一點的話,我們可以使用帶優(yōu)化目標的聚類:比如K-Center-Greedy算法,其約束條件是在最大化多樣性的情況下,使指令數(shù)據(jù)集最小。

bda740f4-9ef9-11ee-8b88-92fbcf53809c.png

另外,如果我們已經有了一批已經去重的人工處理過的高質量數(shù)據(jù),那么我們如何尋找與這批數(shù)據(jù)不一樣的數(shù)據(jù)呢?

這里有一個非常簡單實用的方案,并且這個方案可以用在很多其他的地方。

我們簡單地把已有的數(shù)據(jù)全部當成正樣本打上1,然后待篩選的數(shù)據(jù)全部當成負樣本打上0,我們使用deberta等構建二分類模型,并進行K-fold的交叉驗證,在交叉驗證過程中,選出每一個fold過程中的測試集合里概率接近于0的樣本。

通過這樣的操作,就能把長得與已有數(shù)據(jù)不一樣的數(shù)據(jù)給選出來了,并且這個過程是半監(jiān)督的。

套方案也可以用在很多其他地方,比如數(shù)據(jù)質量選擇,只要我們有一批已經確定標簽/結果/標注的種子數(shù)據(jù),就能通過這樣的方法選出與種子數(shù)據(jù)長得比較像的,長得不像的。

第二,數(shù)據(jù)的不確定性。

數(shù)據(jù)的不確定性主要體現(xiàn)數(shù)據(jù)的質量篩選上,選取模型學的不那好的數(shù)據(jù),模型沒有把握的數(shù)據(jù)。

最簡單的,我們可以選出模型對應PPL值比較差的那批數(shù)據(jù)。如果是指令數(shù)據(jù)的話,比如大模型做題和對應的答案。我們可以把所有選項對應的概率之和計算出來,然后過濾出概率和比較低的那一批數(shù)據(jù),這批數(shù)據(jù)就是模型“不太肯定”的樣本,我們需要加強針對性的訓練。

當然這樣可能有一個副作用,就是這批數(shù)據(jù)是質量比較差而不是模型學的不太好的。

為此,我們還要借助reward model,這個reward model是廣義的,他是一個質量的二分類模型??梢约莱鑫覀兊膁eberta,繼續(xù)用標注數(shù)據(jù)進行做二分類,進行數(shù)據(jù)質量的判斷。

有了質量打分模型后,我們就可以判斷一些指令數(shù)據(jù)的質量高低,并且據(jù)此選出模型真正不確定的數(shù)據(jù)。

這個過程類似于手動的拒絕采樣,核心是選擇“模型不確定”+“數(shù)據(jù)質量達標”的那部分數(shù)據(jù)。

總結一下,監(jiān)督學習中主動學習的兩個基本原則是尋找多樣性的數(shù)據(jù),模型不確定性的數(shù)據(jù),在尋找的過程中,我們使用了一些小技巧,比如聚類去重,對抗半監(jiān)督過濾,自建reward二分類等方法。這幾個小技巧,學術上沒有什么高深莫測的東西,都是實踐中總結出來的好用的方法。

并且你把上面的過程串聯(lián)起來,其實就是一套高效率,低成本的數(shù)據(jù)構造pipeline了,不僅可以用在大模型的數(shù)據(jù)選擇和構造,在所有的監(jiān)督學習上,這套思路和方法都是實適用的。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:大模型微調數(shù)據(jù)選擇和構造技巧

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    千方科技推出AI大模型公路構造物評定系統(tǒng)

    公路構造物(橋梁、隧道、涵洞等)檢測評定是養(yǎng)護管理的核心環(huán)節(jié),通過量化構造物的技術狀況評定等級,可為養(yǎng)護資源分配決策提供技術支持。傳統(tǒng)公路構造物技術狀況評定面臨“三座大山”:一是評定結果易受人
    的頭像 發(fā)表于 07-09 15:54 ?211次閱讀

    使用OpenVINO?訓練擴展對水平文本檢測模型進行微調,收到錯誤信息是怎么回事?

    已針對水平文本檢測模型運行OpenVINO?訓練擴展中的 微調 步驟,并收到錯誤消息: RuntimeError: Failed to find annotation files
    發(fā)表于 03-05 06:48

    了解DeepSeek-V3 和 DeepSeek-R1兩個大模型的不同定位和應用選擇

    專業(yè)數(shù)據(jù) 注入大量數(shù)學/科學文獻與合成推理數(shù)據(jù) 微調策略 多任務聯(lián)合訓練 推理鏈強化學習(RLCF)+ 符號蒸餾 推理效率 均衡優(yōu)化(適合常規(guī)任務) 針對長邏輯鏈的并行加速技術 4. 典型應用場
    發(fā)表于 02-14 02:08

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術解讀

    今天學習大模型RAG 檢索增強生成技術Embedding,即嵌入,是一種將離散數(shù)據(jù)(如文字、圖像、音頻等)轉換為連續(xù)的密集向量表示的技術。這些向量能夠反映原始數(shù)據(jù)之間的關系,使得計算機能夠更好地處
    發(fā)表于 01-17 19:53

    【「基于大模型的RAG應用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調技術解讀

    今天學習<基于大模型的RAG應用開發(fā)與優(yōu)化>這本書。大模型微調是深度學習領域中的一項關鍵技術,它指的是在已經預訓練好的大型深度學習模型基礎上,使用新的、特定任務相關的
    發(fā)表于 01-14 16:51

    英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數(shù)據(jù)問題

    。Cosmos 世界基礎模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學的逼真合成數(shù)據(jù),以用于訓練和評估其現(xiàn)有的模型。開發(fā)者還可以通過微調 Cosmos WFM 構建自定義
    的頭像 發(fā)表于 01-14 11:04 ?1289次閱讀
    英偉達推出基石世界<b class='flag-5'>模型</b>Cosmos,解決智駕與機器人具身智能訓練<b class='flag-5'>數(shù)據(jù)</b>問題

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    的功能和性能。因此,選擇具有良好可擴展性的模型可以適應未來業(yè)務的發(fā)展需求。在客服領域,處理客戶數(shù)據(jù)時可能涉及敏感信息。因此,在選擇模型時需要
    發(fā)表于 12-17 16:53

    名單公布!【書籍評測活動NO.52】基于大模型的RAG應用開發(fā)與優(yōu)化

    外部知識以提高輸出答案的質量。 04 RAG與模型微調 要想提高大模型在特定行業(yè)與場景中輸出的適應性與準確性,除了使用RAG,還可以使用自己的數(shù)據(jù)對大
    發(fā)表于 12-04 10:50

    一種信息引導的量化后LLM微調新算法IR-QLoRA

    模型應用開卷,連一向保守的蘋果,都已釋放出發(fā)展端側大模型的信號。 問題是,大語言模型(LLM)卓越的表現(xiàn)取決于“力大磚飛”,如何在資源有限的環(huán)境中部署大模型并保障性能,仍然頗具挑戰(zhàn)。
    的頭像 發(fā)表于 11-19 17:16 ?831次閱讀
    一種信息引導的量化后LLM<b class='flag-5'>微調</b>新算法IR-QLoRA

    大語言模型如何開發(fā)

    大語言模型的開發(fā)是一個復雜且細致的過程,涵蓋了數(shù)據(jù)準備、模型架構設計、訓練、微調和部署等多個階段。以下是對大語言模型開發(fā)步驟的介紹,由AI部
    的頭像 發(fā)表于 11-04 10:14 ?606次閱讀

    常見AI大模型的比較與選擇指南

    選擇AI大模型時,明確具體需求、了解模型的訓練數(shù)據(jù)、計算資源要求和成本,并考慮模型的可解釋性和社區(qū)支持情況等因素至關重要。以下是對常見AI
    的頭像 發(fā)表于 10-23 15:36 ?2676次閱讀

    使用AI大模型進行數(shù)據(jù)分析的技巧

    使用AI大模型進行數(shù)據(jù)分析的技巧涉及多個方面,以下是一些關鍵的步驟和注意事項: 一、明確任務目標和需求 在使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務目標,這將直接影響
    的頭像 發(fā)表于 10-23 15:14 ?2770次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢,為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務器產品,為
    的頭像 發(fā)表于 09-09 09:19 ?938次閱讀

    chatglm2-6b在P40上做LORA微調

    背景: 目前,大模型的技術應用已經遍地開花。最快的應用方式無非是利用自有垂直領域的數(shù)據(jù)進行模型微調。chatglm2-6b在國內開源的大模型
    的頭像 發(fā)表于 08-13 17:12 ?847次閱讀
    chatglm2-6b在P40上做LORA<b class='flag-5'>微調</b>

    示波器探頭補償微調旋鈕的作用

    示波器探頭補償微調旋鈕是一種用于調整示波器探頭性能的重要組件。 一、示波器探頭補償微調旋鈕的作用 校準探頭性能 示波器探頭補償微調旋鈕的主要作用是校準探頭的性能。由于探頭在生產過程中可能存在一定
    的頭像 發(fā)表于 08-09 11:31 ?1282次閱讀