引入
在大家搞RLHF中經(jīng)常遇到的一個核心的問題是,RM的水平不夠好沒法訓(xùn)練得到想要的效果,其背后兩大類基本的原因是:1.數(shù)據(jù)質(zhì)量低。2.模型泛化能力差。
復(fù)旦MOSS這篇技術(shù)報告,從這兩個問題入手,提出了一系列方法優(yōu)化和提升。
核心問題
展開來講的話,關(guān)于1.數(shù)據(jù)質(zhì)量低 2.模型泛化能力差這兩個問題具體指的是:
一、數(shù)據(jù)質(zhì)量低:數(shù)據(jù)集中的錯誤和模糊的偏好對(pairs),可能導(dǎo)致獎勵模型(RM)無法準確捕捉人類的偏好。你通過數(shù)據(jù)透傳給你的模型,一會兒向左,一會兒向右,模型也要學(xué)懵。
二、泛化能力差:獎勵模型在特定分布上訓(xùn)練后,很難泛化到該分布之外的例子,且不適合迭代式的RLHF訓(xùn)練(提升RLHF的重要路徑之一)。你的模型訓(xùn)練得到了一個二極管,對于自己相信的東西表現(xiàn)的非常極端,對于沒見過的東西就傻眼了。
針對這兩類問題,作者提出了兩個視角的方法,分別從數(shù)據(jù)角度和算法角度出發(fā)。
一、數(shù)據(jù)角度:使用多個獎勵模型的輸出,增加數(shù)據(jù)度量的信息源,用這種方法來量化數(shù)據(jù)中偏好的強度信息,并通過這種方法來識別和糾正錯誤或模糊的偏好對。對于不同質(zhì)量水平,模糊度水平的數(shù)據(jù),采取了不一樣的措施,有翻轉(zhuǎn),軟標簽,適應(yīng)性margin等具體方法,后面具體展開講解。
二、算法角度:借助對比學(xué)習和元學(xué)習的方法。增加對比學(xué)習的loss,對比學(xué)習通過增強模型區(qū)分能力,來增強RM的對好壞的區(qū)分水平。元學(xué)習則使獎勵模型能夠維持區(qū)分分布外樣本的細微差異,這種方法可以用于迭代式的RLHF優(yōu)化。
數(shù)據(jù)視角
在論文中,"Measuring the Strength of Preferences"(測量偏好強度)部分提出了一種基于多獎勵模型投票的方法來量化數(shù)據(jù)中偏好的強度。這種方法的具體步驟如下:
1.訓(xùn)練多個獎勵模型:使用相同的偏好數(shù)據(jù)集,隨機化訓(xùn)練順序,訓(xùn)練多個獎勵模型。這些模型可以是相同的結(jié)構(gòu),但初始化權(quán)重不同,以增加多樣性。
2.計算偏好強度:對于每一個pair,例如,兩個由SFT模型生成的輸出和,使用這些獎勵模型計算每個模型對這兩個輸出的獎勵分數(shù) 和 。然后,計算每個比較對的偏好強度,其中是被選擇的輸出,是被拒絕的輸出。
計算平均值和標準差:使用所有獎勵模型的分數(shù)來計算偏好強度的平均值和標準差。這些統(tǒng)計量可以幫助評估偏好的一致性和強度。
分析偏好強度分布:通過觀察偏好強度的平均值和標準差的分布,可以識別出數(shù)據(jù)集中可能存在的錯誤或模糊偏好。例如,如果偏好強度的平均值接近0,可能表明偏好標簽不正確;如果標準差很大,可能表明偏好差異不明顯,模型在這些數(shù)據(jù)上可能不夠魯棒。
作者給了一個分布分析的例子,分別是前面提到的這個度量的均值和方差通過10個模型得到的分布。
可以看出數(shù)據(jù)的區(qū)分性比較強,并且隨著的上升,和GPT4標注結(jié)果的一致性也在上升。
通過如上的方法就可以把數(shù)據(jù)大概分開,我們劃分為3類進行分析。
1.低強度的偏好數(shù)據(jù)的負面影響:研究發(fā)現(xiàn),數(shù)據(jù)集中偏好強度最低的20%的數(shù)據(jù)對模型在驗證集上的性能有負面影響。這些數(shù)據(jù)的偏好強度平均值小于0,表明這些數(shù)據(jù)可能包含錯誤的偏好標簽。
2.中等強度偏好數(shù)據(jù)的中立影響:偏好強度在20%到40%之間的數(shù)據(jù),在訓(xùn)練后,模型在驗證集上的預(yù)測準確率大約為0.5。這些數(shù)據(jù)的偏好強度平均值接近0,表明這些數(shù)據(jù)的偏好差異不大,模型在這些數(shù)據(jù)上的學(xué)習效果一般。
3.高強度的偏好數(shù)據(jù)的積極影響:剩余的數(shù)據(jù)(偏好強度最高的60%)顯著提高了模型的性能。然而,僅使用偏好強度最高的10%的數(shù)據(jù)訓(xùn)練模型時,并沒有達到最佳性能。這可能是因為這些數(shù)據(jù)過于強烈,導(dǎo)致模型可能過度擬合這些數(shù)據(jù)。
歸納出偏好強度信息后,我們可以根據(jù)偏好強度的測量結(jié)果,可以對數(shù)據(jù)集進行分類,并對不同類別的數(shù)據(jù)采取不同的處理策略。
對于低強度的偏好數(shù)據(jù),隱含標簽錯誤的可能性,通過翻轉(zhuǎn)偏好對的標簽可以有效地提高模型性能。對于中強度的,比較模糊的偏好數(shù)據(jù),應(yīng)用軟標簽和適應(yīng)性邊距可以避免模型過度擬合。對于高強度的偏好數(shù)據(jù),使用軟標簽和適應(yīng)性邊距的組合特別有效。
具體的三個手段:反轉(zhuǎn),即為標簽倒置,軟標簽是不使用0和1的hard lable,用度量偏好差異的作為軟標簽,就是來回歸 ,并且增加了這樣的自適應(yīng)參數(shù)。
adaptive margin
一種讓同類聚集,異類區(qū)分度增大的經(jīng)典方法,來自于人臉識別的經(jīng)典方法。
作者給了這幾種方法的詳細實驗過程:包含了reward,loss,ppl,輸出len等角度的度量。
整體看起來,軟標簽適用在中上強度的偏好數(shù)據(jù),margin方法在所有強度數(shù)據(jù)都適用。
算法視角
在論文的 "Preference Generalization and Iterated RLHF"(偏好泛化和迭代RLHF)部分,作者們提出了兩種主要的方法來提高獎勵模型(Reward Model, RM)的泛化能力,使其能夠在分布變化的情況下仍然能夠有效地區(qū)分不同的響應(yīng)。具體做法如下:
一、對比學(xué)習(Contrastive Learning):
選擇正負樣本:在模型上接入對比學(xué)習損失。
形式很簡單,其核心就是如何構(gòu)造對比學(xué)習的學(xué)習方法。有兩種方法:1.直接學(xué)習偏好對(Preference Pairs)的表征,也就是最普通的對比學(xué)習。2.學(xué)習前文提到的偏好差異(Preference Difference),,這種差異本質(zhì)上也是一種對比的度量。
作者選取兩種對比學(xué)習swAV和simcse,交叉了兩種學(xué)習方式,得到了如下的實驗結(jié)果。
二、MetaRM(Meta Reward Model)
提出了一種名為MetaRM的方法,通過元學(xué)習來對齊原始偏好對與分布變化。MetaRM的關(guān)鍵思想是在訓(xùn)練階段最小化原始偏好對的損失,同時最大化對從新分布中采樣的響應(yīng)的區(qū)分能力。
訓(xùn)練過程:MetaRM的訓(xùn)練過程包括四個步驟:計算從新分布中采樣的響應(yīng)的差異損失,計算損失相對于RM參數(shù)的梯度并更新參數(shù),計算原始偏好對的損失,以及計算損失相對于更新后的參數(shù)的梯度并優(yōu)化原始參數(shù)。
具體,MetaRM 的算法包括以下步驟:
1.從偏好對數(shù)據(jù)集 中采樣一個batch 。
2.從元數(shù)據(jù)集 中采樣一個batch 。
3.在 上計算差異損失 。
4.使用元學(xué)習更新獎勵模型的參數(shù) 。
5.在 上計算原始損失 。
6.使用原始損失的梯度更新獎勵模型的參數(shù) θt。
其優(yōu)化目標是通過最大化差異損失函數(shù) 和最小化原始損失函數(shù) 來訓(xùn)練獎勵模型。這樣,獎勵模型既能學(xué)習到原始偏好對,又能適應(yīng)策略模型輸出分布的變化。
通過這些方法,獎勵模型能夠更好地捕捉數(shù)據(jù)中細微的偏好差異,從而在面對新分布的數(shù)據(jù)時保持其區(qū)分能力。這使得獎勵模型能夠在迭代的RLHF過程中更穩(wěn)定地優(yōu)化語言模型,即使在模型輸出分布發(fā)生變化時也能保持其指導(dǎo)優(yōu)化的能力。
主要實驗結(jié)果如圖所示:MetaRM 在分布內(nèi)和分布外任務(wù)評估中都顯示出了優(yōu)越的性能。在分布內(nèi)任務(wù)中,MetaRM 在多個回合的 PPO 訓(xùn)練后,其性能顯著優(yōu)于基線模型。
另外在OOD上的表現(xiàn)做了單獨的分析,在分布外任務(wù)中,MetaRM 繼續(xù)優(yōu)于基線模型,表明其方法能夠有效地在新領(lǐng)域?qū)崿F(xiàn)對齊,而無需對一組query進行成本高昂的重新標注。
?
總結(jié)
總結(jié)來說,作者們在報告中提出了一系列方法來解決開頭提到的核心問題,如何增加RM的泛化能力,從數(shù)據(jù)和算法角度,分別提出了兩個問題核心問題和對應(yīng)的解決方法,旨在提高獎勵模型在處理錯誤偏好數(shù)據(jù)和泛化到新分布數(shù)據(jù)時的性能。
審核編輯:黃飛
?
評論