一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于ICL范式的LLM的最高置信度預測方案

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-11-24 11:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:cola

雖然大多數(shù)現(xiàn)有的LLM提示工程只專注于如何在單個提示輸入中選擇一組更好的數(shù)據(jù)樣本(In-Context Learning或ICL),但為什么我們不能設計和利用多個提示輸入來進一步提高LLM性能?本文提出上下文采樣(ICS),一種低資源LLM提示工程技術(shù),通過優(yōu)化多個ICL提示輸入的結(jié)構(gòu)來產(chǎn)生最有置信度的預測結(jié)果。

介紹

指令微調(diào)的LLMs,如Flan-T5、LLaMA和Mistral展示了通用的自然語言理解(NLI)和生成(NLG)能力。然而,解決實際任務需要廣泛的領(lǐng)域?qū)I(yè)知識,這對LLM來說仍然具有挑戰(zhàn)性。研究人員提出了各種激勵策略來探索LLM的能力。一個突出的方法是少樣本上下文學習(ICL),通過向提示輸入插入一些數(shù)據(jù)示例,特別是對未見任務的能力提高了LLM的任務解釋和解決能力。最近的幾項工作研究了不同ICL設置的影響,包括數(shù)量、順序和組合。然而,最好的ICL策略還沒有共識。

本文假設不同的ICL為LLM提供了關(guān)于任務的不同知識,導致對相同數(shù)據(jù)的不同理解和預測。因此,一個直接的研究問題出現(xiàn)了:llm能否用多個ICL提示輸入來增強,以提供最可信的預測?為解決這個問題,本文提出上下文采樣(ICS)。ICS遵循三步流程:采樣、增強和驗證,如圖1所示。

dd386940-8877-11ee-939d-92fbcf53809c.png

ICS策略

給定一個自然語言任務指令和一個數(shù)據(jù),指令微調(diào)的SOTA可以接受輸入,生成一個輸出,其中表示上下文中的注釋示例,是預測結(jié)果。

示例可以為LLM提供:

直接理解任務指令(I)和預期輸出

間接指導如何解決任務。

本文假設不同的ICL示例集為LLM提供了關(guān)于該任務的不同知識。因此,LLM可以根據(jù)不同的ICL提示輸入改變對相同數(shù)據(jù)的預測,但預測的變化最終將收斂到一個最可信的預測。

ICS的框架如圖1所示。

從未標記的數(shù)據(jù)池中采樣示例候選集并獲取注釋,

用不同的ICL組合增加標簽

驗證置信度最高的標簽作為增強標簽的最終預測。

ICS方法是模型無關(guān)的且“即插即用”,可以以最小的工作量切換到不同的采樣、增強和驗證算法。

示例候選集采樣

從許多未標記的數(shù)據(jù)中采樣少量數(shù)據(jù)作為ICL示例,通常分為兩種類型:基于數(shù)據(jù)多樣性和基于模型概率。我們的策略堅持基于集群的策略(即核心集),旨在識別代表所有未標記數(shù)據(jù)的示例,同時最大化這些選定實例的多樣性。該策略用句子轉(zhuǎn)換器編碼計算每個數(shù)據(jù)的余弦相似度,其中embed表示句Transformer Embedding。然后,根據(jù)相似度得分對候選樣本進行排序,并檢索個相同間隔的樣本集,以保證樣本集的多樣性。本文試圖確定樣本量和增強的ICL組合數(shù)量,在下面三個角度上取得平衡:

包含足夠的多樣性充分表示基礎數(shù)據(jù),

置信預測具有魯棒性,

最小化注釋成本。

ICL組合增強

如圖1所示,ICS通過為要預測的相同數(shù)據(jù)構(gòu)建不同的ICL組合來增強標簽,然后獲得所有標簽中置信度最高的標簽。然而,如果要求LLM預測候選的每個組合,計算量可能會很大。我們認為,ICS不需要每個ICL組合來找到模型的最可信的標簽。類似于人類投票,少數(shù)代表代表更多的人口投票,我們計劃調(diào)查合理數(shù)量的“代表”,即及時的輸入。用一個隨機和基于數(shù)據(jù)多樣性的算法作為基準,用于示例增強,并研究了策略差異的影響。兩種方法都是從候選列表中迭代采樣次,其中基于多樣性的增強策略使用上述策略。然后對相同的測試數(shù)據(jù)查詢LLM次,得到個弱標簽,記為。

置信標簽驗證

既然我們從上述ICS步驟中獲得了一組標簽,就可以應用一些驗證算法來找到置信度最高的標簽,獲得了最可信的預測??梢韵胂驣CL有潛力提供模型可信的無監(jiān)督標簽,以在資源匱乏的場景中迭代地微調(diào)LLM,這些場景中專家注釋難以訪問且昂貴。

實驗

實驗設置

采用了兩個SOTA LLMs FLAN-T5-XL和Mistral,并在三個難度越來越大的NLI任務上進行實驗:eSNLI、Multi-NLI和ANLI。排除了LLaMA-2的原因是初步實驗顯示了LLaMA-2在“中性”類別上有過擬合問題。我們使用vanilla ICL作為基線。利用隨機抽樣來構(gòu)建基礎ICS策略的ICS提示輸入,并使用多數(shù)代表方法來找到最可信的標簽。對每個提示輸入使用3個示例。操作ICS的兩個控制變量:采樣的代表性數(shù)據(jù)的大小,其中,以及每個待預測數(shù)據(jù)的增強示例組合的數(shù)量,其中,其中是ICL基線。對于真實場景,500個注釋是一個合理的預算。在10次試驗中取平均值。

對LLaMA-2進行分析

利用三種不同的自然語言指令,在ANLI上對LLaMA-2進行初始推理實驗:

確定一個假設是否是蘊涵的,中性的,矛盾的前提。

將一對前提和假設句分為三類:蘊涵句、中性句、矛盾句。

通過蘊涵、中性、矛盾來預測前提和假設之間的關(guān)系。

dd660724-8877-11ee-939d-92fbcf53809c.png

結(jié)果如表2所示,我們可以很容易地觀察到,盡管改變了指令,LLaMA-2傾向于過度預測其他兩個類別的"中性",而真實分布是跨類別的。因此,我們在工作中省略了LLaMA-2。可能有不同的原因?qū)е铝诉@個問題;例如,LLaMA-2對NLI任務或共享同一組目標類別("蘊含"、"中性"和"矛盾")的類似任務進行了過擬合。

實驗結(jié)果

在圖2中,我們展示了時,基線ICL和我們的ICS策略對每個模型和數(shù)據(jù)集的預測精度?;€和我們的策略之間的標準差變化也用右縱軸的虛線表示。以隨機采樣策略為基準的ICS策略,可以不斷提高LLM在每個組合中的預測性能,證明了所提出的ICS管道的有效性。

dd7dbbb2-8877-11ee-939d-92fbcf53809c.png

此外,我們觀察到LLM對ICS有明顯的敏感性。具體來說,對于Flan-T5來說,ICS策略提供的精度提升遠小于Mistral,這可以歸因于Flan-T5可能會過擬合我們實驗的三個數(shù)據(jù)集或NLI任務。另一方面,Mistral證明了ICS策略對準確性的顯著提升,在所有數(shù)據(jù)集上的平均提升超過5%。當時,兩個模型的標準偏差減少得最多,當超過10時,增加的提供的性能改善開始逐漸減少。對于示例候選采樣,一旦超過100,精度的提高就不顯著。樣本量超過100可以被認為具有足夠的多樣性和代表性。

表3和表4報告了對FlanT5XL和Mistral-7b的完整評估結(jié)果。

ddaa6ab8-8877-11ee-939d-92fbcf53809c.png

ddd7cd5a-8877-11ee-939d-92fbcf53809c.png

消融實驗

使用Mistral-7B和性能最佳的設置:和。從3個NLI數(shù)據(jù)集中隨機采樣3000和1000數(shù)據(jù)作為訓練集和測試集。我們共進行了4種情況下的10次試驗,記為組合策略,其中RD為隨機策略,DS為基于數(shù)據(jù)相似性的策略。實驗結(jié)果如表1所示:

de08c392-8877-11ee-939d-92fbcf53809c.png

基于多樣性的示例候選采樣和組合增強策略可以有效提高ICL的性能。

總結(jié)

本文提出上下文采樣(ICS),一種新的基于ICL的范式,用于探測LLM的最高置信度預測。實驗結(jié)果表明,與傳統(tǒng)的ICL方法相比,ICS方法提高了ICL的準確性,降低了標準偏差。還研究了不同樣本數(shù)量和ICL組合量的影響,然后進一步進行消融實驗,以說明基于ICS簡單但有效的數(shù)據(jù)多樣性采樣策略的有用性。

限制

本文的主要重點是提出并證明ICS的有效性。然而,盡管對不同的和組合進行了廣泛的實驗,但仍有幾個潛在變量需要進一步分析。例如,盡管我們考慮了3個不同難度的數(shù)據(jù)集,并且每個ICL組合是任意的,但3個數(shù)據(jù)集都是NLI任務。此外,只進行了一項基于數(shù)據(jù)多樣性的候選采樣和組合增強策略的小規(guī)模消融研究。并且我們的實驗原本打算由三個SOTA LLM組成,但由于LLaMA-2傾向于預測“中性”類別,因此不包括它。我們?nèi)杂懈鞣N其他的指令微調(diào)LLM沒有包括在這項工作中,如InstructGPT。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 轉(zhuǎn)換器
    +關(guān)注

    關(guān)注

    27

    文章

    9065

    瀏覽量

    151853
  • Sample
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    8950
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    13656
  • prompt
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    2769
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    844

原文標題:ICL的時候,更多sample好還是更多prompt好呢?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?671次閱讀

    使用 llm-agent-rag-llamaindex 筆記本時收到的 NPU 錯誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創(chuàng)建運行 llm-agent-rag-llamaindex notebook 的環(huán)境。 執(zhí)行“創(chuàng)建
    發(fā)表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?612次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應用的最佳實踐

    ALVA空間智能視覺焊接方案重構(gòu)工業(yè)焊接范式

    在智能制造浪潮席卷全球的今天,焊接工藝作為制造業(yè)的核心環(huán)節(jié),正經(jīng)歷著從“經(jīng)驗驅(qū)動”向“數(shù)據(jù)驅(qū)動”的范式躍遷。
    的頭像 發(fā)表于 05-15 11:30 ?426次閱讀

    詳解 LLM 推理模型的現(xiàn)狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴展推理時間計算、運用強化學習、開展監(jiān)督微調(diào)和進行提煉等。本文將深入探討LLM推理優(yōu)化
    的頭像 發(fā)表于 04-03 12:09 ?508次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀

    無法在OVMS上運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 上運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發(fā)表于 03-05 08:07

    傳感器仿真模型的可信度評估方案

    由于仿真是對真實世界進行抽象建模并通過編程實現(xiàn),仿真得到的計算結(jié)果與真實仿真對象的表現(xiàn)存在差異,因此模擬仿真測試的可信度成為當前亟需解決的關(guān)鍵問題,需要提出有效的評估方法。
    的頭像 發(fā)表于 02-14 16:41 ?3764次閱讀
    傳感器仿真模型的可<b class='flag-5'>信度</b>評估<b class='flag-5'>方案</b>

    新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺

    LLM630LLM推理,視覺識別,可開發(fā),靈活擴展···LLM630ComputeKit是一款AI大語言模型推理開發(fā)平臺,專為邊緣計算和智能交互應用而設計。該套件的主板搭載愛芯AX630CSoC
    的頭像 發(fā)表于 01-17 18:48 ?700次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語言模型推理開發(fā)平臺

    小白學大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語言模型(LLM)在性能、成本和應用前景上的快速發(fā)展,越來越多的團隊開始探索如何自主訓練LLM模型。然而,是否從零開始訓練一個LLM,并非每個組織都適合。本文將根據(jù)不同的需求與資源,幫助
    的頭像 發(fā)表于 01-09 12:12 ?975次閱讀
    小白學大模型:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    什么是LLM?LLM在自然語言處理中的應用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進步。其中,大型語言模型(LLM)的出現(xiàn),標志著我們對語言理解能力的一次飛躍。LLM通過深度學習和海量數(shù)據(jù)訓練,使得機器能夠以前
    的頭像 發(fā)表于 11-19 15:32 ?3662次閱讀

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓練LLM模型的一般步驟,以及一些關(guān)鍵考慮因素: 定義目標和需求 : 確定你的LLM將用
    的頭像 發(fā)表于 11-08 09:30 ?1525次閱讀

    LLM技術(shù)對人工智能發(fā)展的影響

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型(LLM)技術(shù)已經(jīng)成為推動AI領(lǐng)域進步的關(guān)鍵力量。LLM技術(shù)通過深度學習和自然語言處理技術(shù),使得機器能夠理解和生成自然語言,極大地擴展了人工智能的應用范圍
    的頭像 發(fā)表于 11-08 09:28 ?1857次閱讀

    LLM和傳統(tǒng)機器學習的區(qū)別

    在人工智能領(lǐng)域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機器學習是兩種不同的技術(shù)路徑,它們在處理數(shù)據(jù)、模型結(jié)構(gòu)、應用場景等方面有著顯著的差異。 1. 模型結(jié)構(gòu)
    的頭像 發(fā)表于 11-08 09:25 ?1899次閱讀

    端到端InfiniBand網(wǎng)絡解決LLM訓練瓶頸

    ChatGPT對技術(shù)的影響引發(fā)了對人工智能未來的預測,尤其是多模態(tài)技術(shù)的關(guān)注。OpenAI推出了具有突破性的多模態(tài)模型GPT-4,使各個領(lǐng)域取得了顯著的發(fā)展。 這些AI進步是通過大規(guī)模模型訓練實現(xiàn)
    的頭像 發(fā)表于 10-23 11:26 ?2250次閱讀
    端到端InfiniBand網(wǎng)絡解決<b class='flag-5'>LLM</b>訓練瓶頸

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關(guān)鍵技術(shù)的詳細探討,內(nèi)容將涵蓋模型壓縮、解碼方法優(yōu)化、底層優(yōu)化、分布式并行推理以及特定框架和工具的應用等方面。
    的頭像 發(fā)表于 07-24 11:38 ?1824次閱讀