從大規(guī)模數(shù)據(jù)中檢索通常比較耗時,僅從訓(xùn)練數(shù)據(jù)中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓(xùn)練樣例,拼接后作為輸入喂入模型,然后生成結(jié)果。結(jié)果在摘要、翻譯、語言模型和QA上都取得了不錯的效果。
論文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]
Code:microsoft/REINA[2]
一句話概述:在檢索任務(wù)中訓(xùn)練數(shù)據(jù)在推理時也大有用處。
文章上來就給我們呈現(xiàn)了整體的結(jié)構(gòu):
有點類似 Prompt 學(xué)習(xí),但本文主要關(guān)注有監(jiān)督學(xué)習(xí)的設(shè)置。結(jié)果不僅效果很好,而且很容易擴展(只要增加有標(biāo)注訓(xùn)練數(shù)據(jù)就行),計算代價也小。我覺得本文相對最有意思的一個發(fā)現(xiàn)是文中所寫:即便有成噸的參數(shù),一個模型也不能記住訓(xùn)練數(shù)據(jù)中的所有模式。所以,重新捕獲相關(guān)的訓(xùn)練數(shù)據(jù)作為一個手拉手提示器,就可以提供明確的信息來提高模型(推理)的性能。
整體架構(gòu)如下圖所示(REINA):
一張圖其實已經(jīng)很清楚地表達出意思了:對不同的任務(wù)構(gòu)造不同的輸入,但都會將訓(xùn)練數(shù)據(jù)拼接上后再喂入模型,得到最后的答案,這里的答案是通過語言模型生成的。檢索算法使用 BM25。
形式化模型為:
其中,M 表示生成模型,x 是輸入,大括號里的就是 top K 個檢索到的最相似的訓(xùn)練數(shù)據(jù)。
對 QA 任務(wù),將輸入文本和每個選項拼接后作為 query,然后獲取相關(guān)的訓(xùn)練數(shù)據(jù)。如果需要加入外部知識,則調(diào)整為:
其中,C 表示選項。拼接實體字典定義和關(guān)系 R,用來為一個 Q 構(gòu)造知識 K。
Ex 表示與 Q 相關(guān)的實體,Ec 表示與 A 相關(guān)的實體。本文的相關(guān)指:在句子中出現(xiàn)。
用人話簡單描述一下就是:給定 Q,在訓(xùn)練數(shù)據(jù)中找到相似的 QA 對,對每個 QA 對,找到其中所涉及的實體和關(guān)系,然后將實體的定義和關(guān)系也拼接進去,最后組成一長串文本作為模型輸入。
相似檢索使用 Lucene Index,模型訓(xùn)練使用 Transformers。實驗結(jié)果(以文本摘要為例)如下:
結(jié)果顯示,REINA 可以顯著提升(幾乎所有數(shù)據(jù)集)使用不同預(yù)訓(xùn)練模型初始化的基線。在 case 分析時,作者發(fā)現(xiàn) REINA 的數(shù)據(jù)和真實標(biāo)簽之間有很強的相關(guān)性。
總之,本文的思路非常簡單,但效果卻不錯,在工業(yè)上可以一試,尤其是生成式文本摘要和 QA 任務(wù)。不過,感覺這好像也算是一種 prompt 吧,使用訓(xùn)練數(shù)據(jù)來「拉近」輸入和真實標(biāo)簽之間的距離。
本文參考資料
[1]
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773
[2]
microsoft/REINA: https://github.com/microsoft/REINA
審核編輯 :李倩
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7233瀏覽量
90784 -
檢索
+關(guān)注
關(guān)注
0文章
27瀏覽量
13243
原文標(biāo)題:ACL2022 | 微軟:永遠不要低估你的訓(xùn)練數(shù)據(jù)!
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
使用MicroPython部署中的ocrrec_image.py推理得到的輸出結(jié)果很差,如何解決呢?
YOLOv5類中rgb888p_size這個參數(shù)要與模型推理和訓(xùn)練的尺寸一致嗎?一致會達到更好的效果?
壁仞科技支持DeepSeek-V3滿血版訓(xùn)練推理
DeepSeek推出NSA機制,加速長上下文訓(xùn)練與推理
AI大模型在汽車應(yīng)用中的推理、降本與可解釋性研究

FP8在大模型訓(xùn)練中的應(yīng)用

FP8數(shù)據(jù)格式在大型模型訓(xùn)練中的應(yīng)用

FPGA和ASIC在大模型推理加速中的應(yīng)用

NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

GPU服務(wù)器在AI訓(xùn)練中的優(yōu)勢具體體現(xiàn)在哪些方面?
軟件系統(tǒng)的數(shù)據(jù)檢索設(shè)計

評論