超碰伊人资源无码AV,亚洲Av无码日韩精品一区二区,91免费在线ZoZo欧美

在自然界中，好奇心驅(qū)使著生物探索未知，是生存和進化的關(guān)鍵。人類，作為地球上最具智能的物種，其探索精神引領(lǐng)了科技、文化和社會的進步。1492 年，哥倫布懷揣探索未知的理想，勇敢地向西航行，最終發(fā)現(xiàn)了新大陸。

正如人類在面對未知時展現(xiàn)出的探索行為，在人工智能領(lǐng)域，尤其在大型語言模型（LLMs）理解語言和知識中，研究人員正嘗試賦予 LLM 類似的探索能力，從而突破其在給定數(shù)據(jù)集中學(xué)習(xí)的能力邊界，進一步提升性能和安全性。

近期，中國電信集團 CTO、首席科學(xué)家、中國電信人工智能研究院（TeleAI）院長李學(xué)龍教授帶領(lǐng)團隊在全模態(tài)星辰大模型體系深耕的基礎(chǔ)之上，聯(lián)合清華大學(xué)、香港城市大學(xué)、上海人工智能實驗室等單位提出了一種新的探索驅(qū)動的大模型對齊方法 Count-based Online Preference Optimization（COPO）。

該工作將人類探索的本能融入到大語言模型的后訓(xùn)練（Post-Training）中，引導(dǎo)模型在人類反饋強化學(xué)習(xí)（RLHF）框架下主動探索尚未充分理解的知識，解決了現(xiàn)有對齊框架受限于偏好數(shù)據(jù)集覆蓋范圍的問題。

這一創(chuàng)新成果為智傳網(wǎng)（AI Flow）中 “基于連接與交互的智能涌現(xiàn)” 提供了重要技術(shù)支撐，使得模型在動態(tài)交互中不斷學(xué)習(xí)和進步，在探索的過程中實現(xiàn)智能的持續(xù)涌現(xiàn)。論文被國際表征學(xué)習(xí)大會 ICLR 2025 錄用，實現(xiàn)了大模型多輪交互探索中的能力持續(xù)提升。TeleAI 研究科學(xué)家白辰甲為論文的第一作者。

論文標(biāo)題：

Online Preference Alignment for Language Models via Count-based Exploration

論文地址：

https://arxiv.org/abs/2501.12735

代碼地址：

https://github.com/Baichenjia/COPO

研究動機

雖然大型語言模型（LLM）在進行多種語言任務(wù)中已經(jīng)有出色的表現(xiàn)，但它們在與人類價值觀和意圖對齊方面仍面臨著很多挑戰(zhàn)。現(xiàn)有的大模型 RLHF 框架主要依賴于預(yù)先收集的偏好數(shù)據(jù)集進行對齊，其性能受限于離線偏好數(shù)據(jù)集對提示 - 回復(fù)（Prompt-Response）的覆蓋范圍，對數(shù)據(jù)集覆蓋之外的語言難以進行有效泛化。

然而，人類偏好數(shù)據(jù)集的收集是較為昂貴的，且現(xiàn)有的偏好數(shù)據(jù)難以覆蓋所有可能的提示和回復(fù)。這就引出了一個關(guān)鍵問題：是否可以使 LLM 在對齊過程中對語言空間進行自主探索，從而突破離線數(shù)據(jù)集的約束，不斷提升泛化能力？

為了解決這一問題，近期的大模型相關(guān)研究開始由人類反饋強化學(xué)習(xí)驅(qū)動的離線對齊（Offline RLHF）轉(zhuǎn)向在線對齊（Online RLHF），通過迭代式地收集提示和回復(fù)，允許大模型在與語言環(huán)境的互動中不斷學(xué)習(xí)和進步，從而在偏好數(shù)據(jù)集的覆蓋之外進行探索。

本研究旨在解決在線 RLHF 過程中的核心問題：如何使 LLM 高效在語言空間（類比于強化學(xué)習(xí)動作空間）中進行探索。

具體地，強化學(xué)習(xí)算法在進行大規(guī)模的狀態(tài)動作空間（類比于 LLM 中的語言生成空間）中的最優(yōu)策略求解時，系統(tǒng)性探索（Systematic Exploration）對于收集有益的經(jīng)驗至關(guān)重要，會直接關(guān)系到策略學(xué)習(xí)的效果。在 LLM 對齊中，如果缺乏有效的探索機制，可能會導(dǎo)致模型對齊陷入局部最優(yōu)策略。

同時，有效的探索可以幫助大模型更好地理解語言環(huán)境的知識，從而在廣闊的語言空間中找到最優(yōu)回復(fù)策略。

本研究的目標(biāo)在于解決在線 RLHF 中的探索問題，即如何在每次迭代中有效地探索提示 - 回復(fù)空間，以擴大偏好數(shù)據(jù)覆蓋范圍，提高模型對人類偏好的學(xué)習(xí)和適應(yīng)能力。具體地，COPO 算法通過結(jié)合基于計數(shù)的探索（Count-based Exploration）和直接偏好優(yōu)化（DPO）框架，利用一個輕量級的偽計數(shù)模塊來平衡探索和偏好優(yōu)化，并在線性獎勵函數(shù)近似和離散狀態(tài)空間中提供了理論框架。

實驗中，在 Zephyr 和 Llama-3 模型上進行的 RLHF 實驗結(jié)果表明，COPO 在指令遵循和學(xué)術(shù)基準(zhǔn)測試中的性能優(yōu)于其他 RLHF 基線。

理論框架、

研究的理論框架基于大模型獎勵的線性假設(shè)，將獎勵函數(shù)簡化為參數(shù)向量和特征向量的內(nèi)積形式。在此假設(shè)下，可以將復(fù)雜大模型對語言提取的特征作為一個低維的向量，將 RLHF 過程中構(gòu)建的顯式或隱式的大模型獎勵視為向量的線性函數(shù)，具體地：

在此基礎(chǔ)上，給定大模型偏好數(shù)據(jù)集，在現(xiàn)有 Bradley-Terry （BT）獎勵模型的基礎(chǔ)上可以通過極大似然估計來估計獎勵模型的參數(shù)，即：

隨后，根據(jù)統(tǒng)計學(xué)中的相關(guān)理論，可以定量地為獎勵模型提供了一個明確的誤差界限，并得到關(guān)于獎勵模型參數(shù)的置信集合（confidence set），從而使估計的參數(shù)以較大概率落在置信集合中。具體地：

隨后，在參數(shù)集合中可以使用樂觀的期望值函數(shù)來獲得值函數(shù)估計的置信上界，從而實現(xiàn)了強化學(xué)習(xí)探中的樂觀原則（Optimism），使大模型策略向樂觀方向進行策略優(yōu)化。

在上述目標(biāo)中，最終的優(yōu)化項包含兩個部分：第一部分對應(yīng)于經(jīng)典的兩階段 RLHF 方法，在 BT 模型的基礎(chǔ)上估計獎勵，通過最大化獎勵來學(xué)習(xí)策略，同時保持和原始大模型策略的接近性約束。第二部分為新引入的置信區(qū)間上界（UCB）項，用于測量當(dāng)前數(shù)據(jù)集對目標(biāo)策略生成的狀態(tài)分布的覆蓋程度，鼓勵模型探索那些尚未充分探索的語言空間。

具體來說，UCB 項通過增加對較少產(chǎn)生的提問 - 回答的組合的對數(shù)似然，從而鼓勵大模型生成新的、可能更優(yōu)的回答。這將有助于大模型在最大化獎勵和探索新響應(yīng)之間的權(quán)衡，即著名的強化學(xué)習(xí)探索 - 利用權(quán)衡（exploration-exploitation trade-off）。

最終，研究證明了采用 COPO 算法的在線學(xué)習(xí)范式能夠在 T 次迭代后，將總后悔值限制在 O （√T）的量級內(nèi)，顯示了算法在處理大規(guī)模狀態(tài)空間時的效率和穩(wěn)定性。

算法設(shè)計

在理論框架下，具體的算法設(shè)計中結(jié)合了直接偏好優(yōu)化（DPO）的算法框架。其中第一項對獎勵的構(gòu)建和獎勵最大化的學(xué)習(xí)具象化為 DPO 的學(xué)習(xí)目標(biāo)，而將樂觀探索的 UCB 項轉(zhuǎn)化為更容易求解的目標(biāo)。具體地，在有限狀態(tài)動作空間的假設(shè)下，樂觀探索項可以表示為基于狀態(tài) - 動作計數(shù)（Count）的學(xué)習(xí)目標(biāo)，即：

從而，最終的學(xué)習(xí)目標(biāo)表示為 DPO 獎勵和基于提示 - 回答計數(shù)的探索目標(biāo)。具體地：

上式中第二項通過在偏好數(shù)據(jù)中對模型產(chǎn)生的提示 - 回答進行計數(shù)，可以鼓勵增加對之前出現(xiàn)次數(shù)較少的提示 - 回答的探索來鼓勵大模型突破離線數(shù)據(jù)集的覆蓋，使模型主動探索新的、可能更優(yōu)的回復(fù)，從而在迭代過程中擴大數(shù)據(jù)覆蓋范圍并提高策略的性能。

進而可以通過求解梯度的方式進一步的解析 COPO 優(yōu)化目標(biāo)的意義：

由兩部分組成：第一部分負(fù)責(zé)優(yōu)化模型以最大化偏好數(shù)據(jù)上的預(yù)期獎勵；第二部分對應(yīng)于探索項的梯度，它根據(jù)提示 - 回復(fù)對的歷史訪問次數(shù)來調(diào)整模型的優(yōu)化方向。

當(dāng)某個回復(fù)的歷史訪問次數(shù)較少時，該項會推動模型增加生成該回復(fù)的對數(shù)似然，從而鼓勵模型探索那些較少被訪問但可能帶來更高獎勵的區(qū)域，使算法能夠在最大化獎勵的同時有效地平衡探索與利用，實現(xiàn)更優(yōu)的策略學(xué)習(xí)。

然而，在對大模型進行上述目標(biāo)優(yōu)化中，往往無法在大規(guī)模語言空間中實現(xiàn)對 “提示 - 回復(fù)” 的準(zhǔn)確 “計數(shù)”。語言空間的狀態(tài)通常是無限的，且完全相同的回復(fù)很少被多次產(chǎn)生，因此需要一種方法來估計或模擬這些提示 - 回復(fù)對的 “偽計數(shù)”，以便算法能夠在探索較少訪問的區(qū)域時獲得激勵。

在此基礎(chǔ)上，COPO 提出使用 Coin Flipping Network（CFN）來高效的實現(xiàn)偽計數(shù)。CFN 不依賴于復(fù)雜的密度估計或?qū)δＰ图軜?gòu)和訓(xùn)練過程的限制，而是通過一個簡單的回歸問題來預(yù)測基于計數(shù)的探索獎勵。

具體地，CFN 基于的基本假設(shè)是，計數(shù)可以通過從 Rademacher 分布的采樣來估計來得到，考慮從 {-1，1} 的集合中近似隨機采樣得到的分布，如果進行 n 次采樣并對采樣結(jié)果取平均，則該變量的二階矩和計數(shù)的倒數(shù)呈現(xiàn)出等價的關(guān)系，即：

進而，CFN 通過在每次遇到狀態(tài)時進行 Rademacher 試驗（即硬幣翻轉(zhuǎn)），并利用這些試驗的平均值來推斷狀態(tài)的訪問頻率。在實現(xiàn)中，CFN 表示為一個輕量化的網(wǎng)絡(luò)，它通過最小化預(yù)測值和實際 Rademacher 標(biāo)簽之間的均方誤差來進行訓(xùn)練。

在實現(xiàn)中，CFN 接受由主語言模型提取的提示 - 回復(fù)對的最后隱藏狀態(tài)作為輸入，并輸出一個預(yù)測值，該值與狀態(tài)的 “偽計數(shù)” 成反比。通過這種方式，CFN 能夠為每個提示 - 響應(yīng)提供一個探索激勵，鼓勵模型在探索迭代中擴大數(shù)據(jù)覆蓋范圍，提高模型對齊的性能。

實驗結(jié)果

在實驗中使用 UltraFeedback 60K 偏好數(shù)據(jù)集來對 Zephyr-7B 和 Llama3-8B 模型進行微調(diào)，數(shù)據(jù)集中包含豐富的單輪對話偏好對的數(shù)據(jù)。

實驗中使用了一個小型的獎勵模型 PairRM 0.4B 來對多輪迭代過程中模型模型生成的回復(fù)進行偏好排序，從而在探索中利用不斷更新后的大模型來產(chǎn)生不斷擴充的偏好數(shù)據(jù)，提升了數(shù)據(jù)集的質(zhì)量和覆蓋率。

此外，實驗中使用輕量化的 CFN 網(wǎng)絡(luò)實現(xiàn)對提示 - 響應(yīng)對的偽計數(shù)，大幅提升了在線 RLHF 算法的探索能力。

實驗結(jié)果表明，COPO 算法在 AlpacaEval 2.0 和 MT-Bench 基準(zhǔn)測試可以通過多輪探索和對齊來不斷進行性能提升。具體地，相比于離線 DPO 算法，COPO 顯著提升了 Zephyr-7B 和 Llama3-8B 模型的 LC 勝率，分別達(dá)到了 18.8% 和 7.1% 的提升，驗證了 LLM 探索能力提升對獲取更大數(shù)據(jù)覆蓋和最優(yōu)策略方面的優(yōu)勢。

此外，COPO 超越了在線 DPO、SELM 等當(dāng)前最好的在線對齊方法，以 8B 的模型容量超越了許多大體量模型（如 Yi-34B，Llama3-70B）的性能，提升了大模型在語言任務(wù)中的指令跟隨能力和泛化能力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49029

瀏覽量
249598
LLM

LLM

+關(guān)注

關(guān)注
1

文章
325

瀏覽量
844

原文標(biāo)題：ICLR 2025 | 8B模型反超Llama3-70B！TeleAI提出探索驅(qū)動的對齊方法COPO

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

TeleAI提出COPO對齊方法:8B模型超越Llama3-70B的表現(xiàn)

評論