一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

詳解 LLM 推理模型的現(xiàn)狀

穎脈Imgtec ? 2025-04-03 12:09 ? 次閱讀

本文轉(zhuǎn)自:SDNLAB


2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優(yōu)化推理能力的新策略開始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討LLM推理優(yōu)化領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeek R1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。

77103c3a-1041-11f0-9434-92fbcf53809c.png


在LLM中實(shí)施和改進(jìn)推理

簡單來說,基于 LLM 的推理模型是一種旨在通過生成中間步驟或結(jié)構(gòu)化的“思維”過程來解決多步驟問題的 LLM。與僅共享最終答案的簡單問答式 LLM 不同,推理模型要么明確顯示其思維過程,要么在內(nèi)部處理它,這有助于它們在復(fù)雜任務(wù)(例如謎題、編碼挑戰(zhàn)和數(shù)學(xué)問題)中表現(xiàn)更好。

773ed6a8-1041-11f0-9434-92fbcf53809c.png

普通LLM vs. 推理LLM一般來說,有兩種主要策略可以提高推理能力:(1)增加訓(xùn)練計(jì)算量,(2)增加推理計(jì)算量,也稱為推理時(shí)間擴(kuò)展或測試時(shí)間擴(kuò)展。(推理計(jì)算是指訓(xùn)練后響應(yīng)用戶查詢生成模型輸出所需的處理能力。)

7758660e-1041-11f0-9434-92fbcf53809c.png

推理時(shí)間擴(kuò)展的同義詞為了深入理解推理模型的發(fā)展與改進(jìn)過程,下圖展示了更精細(xì)的四類分類。

7792536e-1041-11f0-9434-92fbcf53809c.png

其中方法 2-4 通常會生成響應(yīng)較長的模型,因?yàn)樗鼈兊妮敵鲋邪虚g步驟和解釋。由于推理成本會隨響應(yīng)長度而變化(例如,響應(yīng)長度翻倍,所需計(jì)算量也會翻倍),因此這些訓(xùn)練方法本質(zhì)上與推理擴(kuò)展相關(guān)。本文將重點(diǎn)介紹2025 年 1 月 22 日 DeepSeek R1 發(fā)布之后,出現(xiàn)的關(guān)于推理時(shí)間計(jì)算擴(kuò)展的新研究論文和模型發(fā)布情況。

77af4276-1041-11f0-9434-92fbcf53809c.png

DeepSeek 推理模型的開發(fā)過程

1. 推理時(shí)間計(jì)算擴(kuò)展

該類別所包含的方法旨在在推理過程中提升模型的推理能力,且無需對底層模型權(quán)重進(jìn)行訓(xùn)練或修改。其核心思路是通過投入更多的計(jì)算資源來換取性能的提升,借助諸如思路鏈推理以及各類采樣程序等技術(shù),能夠讓既定模型發(fā)揮出更強(qiáng)大的效能。這里將推理時(shí)間計(jì)算擴(kuò)展單獨(dú)歸為一類,以便聚焦此情境下的方法,但需明確的是,這項(xiàng)技術(shù)適用于任何大型語言模型(LLM)。例如,OpenAI 運(yùn)用強(qiáng)化學(xué)習(xí)開發(fā)了 o1 模型,隨后又采用了推理時(shí)間計(jì)算擴(kuò)展技術(shù)。DeepSeek R1 論文明確指出R1 并未采用推理時(shí)間擴(kuò)展技術(shù)。但他們也表示,在 R1 的部署或應(yīng)用中能夠輕松將該技術(shù)融入其中。

2.純強(qiáng)化學(xué)習(xí)

這種方法僅專注于強(qiáng)化學(xué)習(xí) (RL) 來開發(fā)或提高推理能力。它通常涉及使用來自數(shù)學(xué)或編碼領(lǐng)域的可驗(yàn)證獎勵信號來訓(xùn)練模型。雖然 RL 允許模型開發(fā)更具戰(zhàn)略性的思維和自我改進(jìn)能力,但它也帶來了諸如獎勵黑客、穩(wěn)定性差和高計(jì)算成本等挑戰(zhàn)。

3.強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)

這種混合方法將 RL 與監(jiān)督微調(diào) (SFT) 相結(jié)合,相較于單純的強(qiáng)化學(xué)習(xí),能夠?qū)崿F(xiàn)更穩(wěn)定、更具通用性的改進(jìn)效果。通常的操作流程是,先利用監(jiān)督微調(diào)在高質(zhì)量指令數(shù)據(jù)上對模型展開訓(xùn)練,隨后運(yùn)用強(qiáng)化學(xué)習(xí)作進(jìn)一步優(yōu)化,以實(shí)現(xiàn)特定行為的精準(zhǔn)調(diào)控。

4. 監(jiān)督微調(diào)和模型蒸餾

該方法通過在高質(zhì)量標(biāo)記數(shù)據(jù)集 (SFT) 上對模型進(jìn)行指令微調(diào)來提高模型的推理能力。如果此高質(zhì)量數(shù)據(jù)集由較大的 LLM 生成,則該方法在 LLM 上下文中也稱為“知識蒸餾”或簡稱為“蒸餾”。但需要注意的是,這與深度學(xué)習(xí)中的傳統(tǒng)知識蒸餾略有不同,后者通常涉及使用輸出(標(biāo)簽)和更大的教師模型的邏輯來訓(xùn)練較小的模型。


推理時(shí)間計(jì)算擴(kuò)展方法

作為提升大型語言模型(LLM)推理能力的關(guān)鍵手段,推理時(shí)間擴(kuò)展的核心思路在于在推理進(jìn)程中加大計(jì)算資源的投入。打個(gè)比方,當(dāng)給予人類更多思考時(shí)間時(shí),他們會做出更好的反應(yīng),同理,LLM 通過采用鼓勵其在生成內(nèi)容時(shí)深度 “思考” 的技術(shù),也能實(shí)現(xiàn)推理能力的進(jìn)階。一種方法是提示工程,例如思路鏈 (CoT) 提示,其中“逐步思考”等短語會引導(dǎo)模型生成中間推理步驟。這可以提高復(fù)雜問題的準(zhǔn)確性,但對于簡單的事實(shí)查詢而言則沒有必要。由于 CoT 提示會生成更多標(biāo)記,因此它們也會使推理更加昂貴。

77d296ea-1041-11f0-9434-92fbcf53809c.png

2022 年大型語言模型中的經(jīng)典 CoT 提示的一個(gè)示例是零樣本推理器論文 (https://arxiv.org/abs/2205.11916)

另一種方法涉及投票和搜索策略,例如多數(shù)投票或集束搜索,通過選擇最佳輸出來改進(jìn)響應(yīng)。

77f6bed0-1041-11f0-9434-92fbcf53809c.png

不同的搜索方法依賴于基于過程獎勵的模型來選擇最佳答案,圖片來自 LLM Test-Time Compute 論文(https://arxiv.org/abs/2408.03314)接下來將重點(diǎn)介紹推理時(shí)間擴(kuò)展方向的研究論文。1.s1: Simple test-time scaling首先討論一篇有趣的研究論文,題目是《s1:簡單測試時(shí)間縮放》(31 Jan,s1: Simple test-time scaling)https://arxiv.org/abs/2501.19393,它引入了所謂的“等待”標(biāo)記,可以將其視為“逐步思考”提示修改的迭代版本。這里面涉及監(jiān)督微調(diào) (SFT) 來生成初始模型,因此它不是純粹的推理時(shí)間擴(kuò)展方法。但最終目標(biāo)是通過推理時(shí)間擴(kuò)展主動控制推理行為。簡而言之,他們的方法有兩個(gè):1. 創(chuàng)建包含 1k 個(gè)有推理痕跡的訓(xùn)練示例的精選 SFT 數(shù)據(jù)集。2. 通過以下方式控制響應(yīng)的長度: a) 附加“等待”標(biāo)記,讓 LLM 生成更長的響應(yīng)、自我驗(yàn)證和自我糾正; b) 通過添加思考結(jié)束標(biāo)記分隔符來停止生成(“最終答案:”)。他們稱這種長度控制為“預(yù)算強(qiáng)制”。

78196b88-1041-11f0-9434-92fbcf53809c.png

插入“等待”標(biāo)記以控制輸出長度

預(yù)算強(qiáng)制可以看作是一種順序推理擴(kuò)展技術(shù),它仍然一次生成一個(gè) token(但數(shù)量更多)。這種強(qiáng)制預(yù)算方法比很多其他推理擴(kuò)展技術(shù)更高效。

783fba40-1041-11f0-9434-92fbcf53809c.png

響應(yīng)準(zhǔn)確度與長度之間的相關(guān)性

PS:為什么是“等待”標(biāo)記?筆者猜測研究人員受到了 DeepSeek-R1 論文中的“Aha moment”的啟發(fā),此外他們還嘗試了其他標(biāo)記,例如“Hmm”,但發(fā)現(xiàn)“Wait”的表現(xiàn)略好一些。

7867744a-1041-11f0-9434-92fbcf53809c.png

“Wait”和“Hmm”標(biāo)記2.Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback《測試時(shí)間偏好優(yōu)化:通過迭代文本反饋進(jìn)行動態(tài)對齊》( 22 Jan, Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback),https://arxiv.org/abs/2501.12895測試時(shí)偏好優(yōu)化 (TPO) 是一個(gè)迭代過程,在推理過程中將 LLM 輸出與人類偏好對齊(這不會改變其底層模型權(quán)重)。在每次迭代中,模型:

7888cc08-1041-11f0-9434-92fbcf53809c.png


3.Thoughts Are All Over the Place《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》(30 Jan),https://arxiv.org/abs/2501.18585研究人員探索了一種名為“underthinking”的現(xiàn)象,即推理模型頻繁在推理路徑之間切換,而不是完全專注于探索有希望的路徑,從而降低了解決問題的準(zhǔn)確性。為了解決這個(gè)“underthinking”的問題,他們引入了一種稱為思維轉(zhuǎn)換懲罰(Thought Switching Penalty,TIP)的方法,該方法修改了思維轉(zhuǎn)換標(biāo)記的邏輯,以阻止過早的推理路徑轉(zhuǎn)換。 他們的方法不需要模型微調(diào),并且通過經(jīng)驗(yàn)提高了多個(gè)具有挑戰(zhàn)性的測試集的準(zhǔn)確性。

78a5481a-1041-11f0-9434-92fbcf53809c.png

4. Trading Inference-Time Compute for Adversarial Robustness《用推理時(shí)間計(jì)算換取對抗魯棒性》(31 Jan, Trading Inference-Time Compute for Adversarial Robustness),https://arxiv.org/abs/2501.18841在許多情況下,增加推理時(shí)間計(jì)算可以提高推理 LLM 的對抗魯棒性,從而降低成功攻擊的概率。與對抗訓(xùn)練不同,這種方法不需要任何特殊訓(xùn)練,也不需要事先了解特定的攻擊類型。 但也存在一些例外。例如,在涉及策略模糊性或漏洞利用的設(shè)置中,其改進(jìn)的效果有限。此外,推理改進(jìn)帶來的魯棒性提升可能會被“Think Less”和“Nerd Sniping”等新攻擊策略所削弱。 因此,雖然這些發(fā)現(xiàn)表明擴(kuò)展推理時(shí)間計(jì)算可以提高 LLM 安全性,但僅靠這一點(diǎn)并不能完全解決對抗魯棒性問題。

78cb7698-1041-11f0-9434-92fbcf53809c.png

5. Chain-of-Associated-Thoughts《CoAT:用于增強(qiáng)大型語言模型推理的關(guān)聯(lián)思維鏈框架》(Chain-of-Associated-Thoughts Framework for Enhancing Large Language Models Reasoning, https://arxiv.org/abs/2502.02390)研究人員將經(jīng)典的蒙特卡洛樹搜索推理時(shí)間縮放與“associative memory”相結(jié)合,后者在探索推理路徑時(shí)充當(dāng)LLM的知識庫。使用這種所謂的聯(lián)想記憶,LLM可以更輕松地考慮早期的推理路徑,并在生成響應(yīng)時(shí)動態(tài)使用相關(guān)信息。

79000e08-1041-11f0-9434-92fbcf53809c.png

6. Step Back to Leap Forward《Step Back to Leap Forward:自我回溯以增強(qiáng)語言模型的推理能力》(6 Feb, Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models),https://arxiv.org/abs/2502.0440本文提出了一種自回溯機(jī)制,允許 LLM 通過學(xué)習(xí)在訓(xùn)練和推理期間何時(shí)何地回溯來改進(jìn)其推理能力。雖然訓(xùn)練涉及使用標(biāo)記教模型識別和糾正次優(yōu)推理路徑,但關(guān)鍵貢獻(xiàn)是基于推理時(shí)間樹的搜索,它使用這種學(xué)習(xí)到的回溯能力來探索替代解決方案。 獨(dú)特之處在于,這種探索不需要依賴外部獎勵模型。

7922f026-1041-11f0-9434-92fbcf53809c.png

這篇論文主要關(guān)注提出的回溯推理時(shí)間縮放方法,該方法通過動態(tài)調(diào)整搜索深度和廣度而不是從根本上改變訓(xùn)練范式來改進(jìn)推理(盡管需要使用 標(biāo)記進(jìn)行訓(xùn)練)。

7. Scaling up Test-Time Compute with Latent Reasoning《使用潛在推理擴(kuò)展測試時(shí)間計(jì)算:一種循環(huán)深度方法》(7 Feb, Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach),https://arxiv.org/abs/2502.05171研究人員并沒有通過生成更多 token 來改進(jìn)推理,而是提出了一個(gè)模型,通過在潛在空間中迭代循環(huán)深度塊來擴(kuò)展推理時(shí)間計(jì)算。該塊的功能類似于 RNN 中的隱藏狀態(tài),它允許模型改進(jìn)其推理,而無需更長的 token 輸出。 但這種方式的關(guān)鍵缺點(diǎn)是缺乏明確的推理步驟。

794d7ada-1041-11f0-9434-92fbcf53809c.png

8. Can a 1B LLM Surpass a 405B LLM?《1B LLM 能否超越 405B LLM?重新思考計(jì)算最優(yōu)測試時(shí)間擴(kuò)展》(10 Feb, Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling),https://arxiv.org/abs/2502.06703許多推理時(shí)間擴(kuò)展技術(shù)依賴于采樣,這需要過程獎勵模型 (PRM) 來選擇最佳解決方案。本文系統(tǒng)地分析了推理時(shí)間計(jì)算擴(kuò)展與 PRM 和問題難度之間的相互作用。 研究人員開發(fā)了一種計(jì)算優(yōu)化擴(kuò)展策略,該策略可適應(yīng) PRM、策略模型和任務(wù)復(fù)雜性的選擇。結(jié)果表明,通過正確的推理時(shí)間擴(kuò)展方法,1B 參數(shù)模型可以勝過缺乏推理時(shí)間擴(kuò)展的 405B Llama 3 模型。 他們還展示了具有推理時(shí)間擴(kuò)展的 7B 模型如何超越 DeepSeek-R1,同時(shí)保持更高的推理效率。 這些發(fā)現(xiàn)強(qiáng)調(diào)了推理時(shí)間擴(kuò)展如何顯著改善 LLM,其中具有正確推理計(jì)算預(yù)算的小型 LLM 可以勝過更大的模型。

7975b4b4-1041-11f0-9434-92fbcf53809c.png

9.Learning to Reason from Feedback at Test-Time《學(xué)習(xí)根據(jù)測試時(shí)的反饋進(jìn)行推理》(16 Feb, Learning to Reason from Feedback at Test-Time),https://www.arxiv.org/abs/2502.12521本文探討了一種讓 LLM 在推理時(shí)從錯(cuò)誤中吸取教訓(xùn),而無需在提示中存儲失敗嘗試的方法。這種方法不是通過將之前的嘗試添加到上下文中(順序修訂)或盲目生成新答案(并行采樣)來完善答案的常用方法,而是在推理時(shí)更新模型的權(quán)重。為此,作者引入了 OpTune,這是一個(gè)小型的可訓(xùn)練優(yōu)化器,它根據(jù)模型在前一次嘗試中所犯的錯(cuò)誤更新模型的權(quán)重。這意味著模型會記住它做錯(cuò)了什么,而無需在提示/上下文中保留錯(cuò)誤答案。

79a2ad8e-1041-11f0-9434-92fbcf53809c.png

10. Inference-Time Computations for LLM Reasoning and PlanningLLM 推理和規(guī)劃的推理時(shí)間計(jì)算:基準(zhǔn)和見解(18 Feb, Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights),https://www.arxiv.org/abs/2502.12521本文對推理和規(guī)劃任務(wù)的各種推理時(shí)間計(jì)算擴(kuò)展技術(shù)進(jìn)行了基準(zhǔn)測試,重點(diǎn)分析了它們在計(jì)算成本和性能之間的權(quán)衡。作者對多種技術(shù)進(jìn)行了評估,例如思路鏈、思路樹和推理規(guī)劃,涵蓋了算術(shù)、邏輯、常識、算法推理和規(guī)劃等十一項(xiàng)任務(wù)。 主要發(fā)現(xiàn)雖然擴(kuò)展推理時(shí)間計(jì)算可以提高推理能力,但沒有一種技術(shù)能夠在所有任務(wù)中始終優(yōu)于其他技術(shù)。

79c1dc2c-1041-11f0-9434-92fbcf53809c.png

11. Inner Thinking Transformer內(nèi)在思維轉(zhuǎn)換器:利用動態(tài)深度擴(kuò)展來促進(jìn)自適應(yīng)內(nèi)部思維(19 Feb, Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking),https://arxiv.org/abs/2502.13842內(nèi)部思維轉(zhuǎn)換器 (ITT) 在推理過程中動態(tài)分配更多計(jì)算。與基于標(biāo)準(zhǔn)轉(zhuǎn)換器的 LLM 中對所有標(biāo)記使用固定深度(= 使用相同數(shù)量的層)不同,ITT 采用自適應(yīng)標(biāo)記路由為困難標(biāo)記分配更多計(jì)算。這些困難標(biāo)記多次通過同一層進(jìn)行額外處理,從而增加了這些困難標(biāo)記的推理計(jì)算預(yù)算。

79f63d32-1041-11f0-9434-92fbcf53809c.png

12. S*: Test Time Scaling for Code GenerationS*:代碼生成的測試時(shí)間縮放(20 Feb, S*: Test Time Scaling for Code Generation),https://arxiv.org/abs/2502.14382推理時(shí)間擴(kuò)展可以通過并行擴(kuò)展(生成多個(gè)答案)、順序擴(kuò)展(迭代地細(xì)化答案)或兩者結(jié)合來實(shí)現(xiàn),如 2024 年 Google 論文中所述(優(yōu)化擴(kuò)展 LLM 測試時(shí)間計(jì)算比擴(kuò)展模型參數(shù)更有效,https://arxiv.org/abs/2408.03314)。S* 是一種專為代碼生成設(shè)計(jì)的測試時(shí)計(jì)算擴(kuò)展方法,可改善并行擴(kuò)展(生成多個(gè)解決方案)和順序擴(kuò)展(迭代調(diào)試)。

7a22cfbe-1041-11f0-9434-92fbcf53809c.png

該方法分為兩個(gè)階段:第一階段:生成該模型生成多個(gè)代碼解決方案,并使用問題提示中提供的執(zhí)行結(jié)果和測試用例進(jìn)行迭代完善??梢詫⑵湎胂蟪梢粓鼍幋a競賽,其中模型提交解決方案、運(yùn)行測試并修復(fù)錯(cuò)誤:1. 模型生成多個(gè)候選解決方案。2. 每個(gè)解決方案都在公共測試用例(預(yù)定義的輸入輸出對)上執(zhí)行。3. 如果解決方案失敗(輸出不正確或崩潰),模型會分析執(zhí)行結(jié)果(錯(cuò)誤、輸出)并修改代碼以改進(jìn)它。4. 這個(gè)改進(jìn)過程不斷迭代,直到模型找到通過測試用例的解決方案。例如,假設(shè)要求模型實(shí)現(xiàn)一個(gè)函數(shù) is_even(n),該函數(shù)對于偶數(shù)返回 True,否則返回 False。該模型的首次嘗試可能是:

def is_even(n):

return n % 2 # Incorrect: should be `== 0`

該模型使用公共測試用例來測試此實(shí)現(xiàn):

Input Expected Model Output Status

is_even(4) True False Fail

is_even(3) False True Fail

在檢查結(jié)果后,模型意識到 4 % 2 返回的是 0,而不是 True,因此修改了函數(shù):

def is_even(n):

return n % 2 == 0 # Corrected

現(xiàn)在該函數(shù)通過了所有公共測試,完成了調(diào)試階段。第二階段:選擇一旦多個(gè)解決方案通過了公開測試,模型必須選擇最佳解決方案。這里,S* 引入了自適應(yīng)輸入合成,以避免隨機(jī)選擇:1. 該模型比較了兩種均通過公開測試的解決方案。2. 它會問自己:“我能否生成一個(gè)輸入來揭示這些解決方案之間的差異?”3. 它創(chuàng)建一個(gè)新的測試輸入并在其上運(yùn)行兩種解決方案。4. 如果一個(gè)解決方案產(chǎn)生了正確的輸出而另一個(gè)失敗了,那么模型會選擇更好的一個(gè)。5. 如果兩種解決方案的表現(xiàn)相同,模型將隨機(jī)選擇其中一個(gè)。例如,考慮兩種不同的實(shí)現(xiàn)is_perfect_square(n):

import math

def is_perfect_square_A(n):

return math.isqrt(n) ** 2 == n

def is_perfect_square_B(n):

return math.sqrt(n).is_integer()

兩者都通過了提供的簡單示例測試用例:

n = 25

print(is_perfect_square_A(n)) # True (Correct)

print(is_perfect_square_B(n)) # True (Correct)

但是當(dāng) LLM 生成邊緣情況時(shí),我們可以看到其中一個(gè)會失敗,因此在這種情況下模型會選擇解決方案 A:

n = 10**16 + 1

print(is_perfect_square_A(n)) # False (Correct)

print(is_perfect_square_B(n)) # True (Incorrect)

13. Chain of DraftChain of Draft:少寫,思考更快(25 Feb, Chain of Draft: Thinking Faster by Writing Less),https://arxiv.org/abs/2502.18600研究人員觀察到,雖然推理 LLM 通常會生成詳細(xì)的逐步解釋,但人類通常依賴僅捕捉基本信息的簡潔draft。 受此啟發(fā),他們提出了 Chain of Draft (CoD),這是一種提示策略,通過生成最少但信息豐富的中間步驟來減少冗長的內(nèi)容。因此,從某種意義上說,這是一種推理時(shí)間擴(kuò)展的方法,通過生成更少的 token 來提高推理時(shí)間擴(kuò)展的效率。

7a5c636e-1041-11f0-9434-92fbcf53809c.png

從結(jié)果來看,CoD 似乎與標(biāo)準(zhǔn)提示一樣簡短,但與思維鏈 (CoT) 提示一樣準(zhǔn)確。正如我之前提到的,在我看來,推理模型的優(yōu)勢之一是用戶可以閱讀推理痕跡來學(xué)習(xí)并更好地評估/信任響應(yīng)。CoD 在一定程度上削弱了這種優(yōu)勢。然而,它可能在不需要冗長的中間步驟的情況下非常有用,因?yàn)樗梢约涌焐伤俣?,同時(shí)保持 CoT 的準(zhǔn)確性。14. Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks專用反饋和編輯模型為開放式通用領(lǐng)域任務(wù)提供推理時(shí)間擴(kuò)展能力(6 Mar, Dedicated Feedback and Edit Models Empower Inference-Time Scaling for Open-Ended General-Domain Tasks),https://arxiv.org/abs/2503.04378許多擴(kuò)展推理時(shí)間的推理技術(shù)依賴于具有可驗(yàn)證答案的任務(wù)(如可檢查的數(shù)學(xué)和代碼),這使得它們難以應(yīng)用于寫作和一般問題解決等開放式任務(wù)。為了解決可驗(yàn)證答案的這種限制,研究人員開發(fā)了一個(gè)系統(tǒng),其中一個(gè)模型生成初始響應(yīng),另一個(gè)模型提供反饋(“反饋模型”),第三個(gè)模型根據(jù)該反饋改進(jìn)響應(yīng)(“編輯模型”)。他們使用大量人工注釋的響應(yīng)和反饋數(shù)據(jù)集來訓(xùn)練這些專門的“反饋”和“編輯”模型。然后這些模型通過在推理時(shí)間內(nèi)生成更好的反饋和進(jìn)行更有效的編輯來幫助改善響應(yīng)。

7a831cde-1041-11f0-9434-92fbcf53809c.png



結(jié)論


推理時(shí)間計(jì)算擴(kuò)展已成為今年最熱門的研究課題之一,它可以在不需要修改模型權(quán)重的情況下提高大型語言模型的推理能力。 上面總結(jié)的許多技術(shù)包括從簡單的基于標(biāo)記的干預(yù)(如“等待”標(biāo)記)到復(fù)雜的基于搜索和優(yōu)化的策略(如測試時(shí)間偏好優(yōu)化和關(guān)聯(lián)思維鏈)。 從總體層面來看,一個(gè)反復(fù)出現(xiàn)的主題是,與標(biāo)準(zhǔn)方法相比,增加推理計(jì)算能力甚至可以讓相對較小的模型實(shí)現(xiàn)顯著的改進(jìn)(在推理基準(zhǔn)上)。 這表明推理策略可以幫助縮小規(guī)模較小但更具成本效益的模型與較大模型之間的性能差距。 成本警告需要注意的是,推理時(shí)間擴(kuò)展會增加推理成本,因此,是否使用具有大量推理擴(kuò)展的小模型,還是訓(xùn)練更大的模型并使用較少或不使用推理擴(kuò)展,是一個(gè)必須根據(jù)模型的使用量來計(jì)算的數(shù)學(xué)問題。舉例來說,使用重度推理時(shí)間縮放的 o1 模型實(shí)際上仍然比可能不使用推理時(shí)間縮放的更大的 GPT-4.5 模型稍微便宜一些。

7aa3e180-1041-11f0-9434-92fbcf53809c.png


哪種技術(shù)?然而,推理時(shí)間計(jì)算擴(kuò)展并不是靈丹妙藥。雖然蒙特卡洛樹搜索、自回溯和動態(tài)深度擴(kuò)展等方法可以顯著提高推理性能,但其有效性仍然取決于任務(wù)和難度。正如一篇早期論文所表明的那樣,沒有一種推理時(shí)間計(jì)算擴(kuò)展技術(shù)在所有任務(wù)中表現(xiàn)最佳。此外,許多此類方法都以犧牲響應(yīng)延遲為代價(jià)來提高推理能力,而響應(yīng)緩慢可能會讓某些用戶感到厭煩。例如,如果我有簡單的任務(wù),我通常會從 o1 切換到 GPT4o,因?yàn)樗捻憫?yīng)時(shí)間更快。

下一步

展望未來,今年我們將看到更多圍繞“通過推理時(shí)間計(jì)算擴(kuò)展進(jìn)行推理”研究的兩個(gè)主要分支的論文: 1. 純粹以開發(fā)達(dá)到基準(zhǔn)的最佳模型為中心的研究。2. 關(guān)注于平衡不同推理任務(wù)之間的成本和性能權(quán)衡的研究。無論哪種方式,推理時(shí)間計(jì)算擴(kuò)展的優(yōu)點(diǎn)在于它可以應(yīng)用于任何類型的現(xiàn)有 LLM,以使其更好地完成特定任務(wù)。

按需思考

在 DeepSeek R1 發(fā)布之后,感覺各家公司都在爭相為其產(chǎn)品添加推理功能。 一個(gè)有趣的發(fā)展是,大多數(shù) LLM 提供商開始為用戶添加啟用或禁用思考的選項(xiàng)。該機(jī)制并未公開分享,但它可能是具有回?fù)芡评頃r(shí)間計(jì)算擴(kuò)展的相同模型。 例如,Claude 3.7 Sonnet和Grok 3現(xiàn)在具有用戶可以為其模型啟用的“思考”功能,而 OpenAI 則要求用戶在模型之間切換。例如,如果他們想使用顯式推理模型,則可以使用 GPT4o/4.5 和 o1/o3-mini。然而,OpenAI 首席執(zhí)行官提到,GPT4.5 很可能是他們的最后一個(gè)模型,它沒有明確的推理或“思考”模式。在開源方面,甚至 IBM 也為他們的Granite 模型添加了一個(gè)顯式的“思考”切換。總體而言,無論是通過推理時(shí)間還是訓(xùn)練時(shí)間計(jì)算擴(kuò)展來增加推理能力的趨勢都是 2025 年 LLM 向前邁出的重要一步。 隨著時(shí)間的推移,預(yù)計(jì)推理將不再被視為可選或特殊功能,而是成為標(biāo)準(zhǔn),就像指令微調(diào)或 RLHF 調(diào)整模型現(xiàn)在成為原始預(yù)訓(xùn)練模型的標(biāo)準(zhǔn)一樣。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    557

    瀏覽量

    10596
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    316

    瀏覽量

    641
收藏 人收藏

    評論

    相關(guān)推薦

    使用rk3588多npu推理模型模型推理時(shí)間還增加了,這怎么解釋

    使用rk3588多npu推理模型模型推理時(shí)間還增加了,這怎么解釋
    發(fā)表于 11-05 18:22

    一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型

    數(shù)據(jù)中心網(wǎng)絡(luò)需要更加高效的推理模型提升流簇大小判斷的準(zhǔn)確性和敏感性。提岀了一種基于機(jī)器學(xué)習(xí)的流簇大小推理模型( Mlcoflow),利用極限學(xué)習(xí)杋(ELM)以最小訓(xùn)練誤差為求解目標(biāo)建立推理模型,并且使用不完全信息建模以提升敏感度
    發(fā)表于 04-02 11:38 ?34次下載
    一種基于機(jī)器學(xué)習(xí)的流簇大小<b class='flag-5'>推理模型</b>

    當(dāng)人工智能推理模型不確定時(shí),計(jì)算環(huán)境應(yīng)該是什么樣子?

    自動駕駛可能是最好的例子,改進(jìn)的人工智能模型研究正以瘋狂的速度進(jìn)行。當(dāng)人工智能推理模型不確定時(shí),計(jì)算環(huán)境應(yīng)該是什么樣子?
    發(fā)表于 10-26 11:53 ?533次閱讀

    基于Transformer的大型語言模型LLM)的內(nèi)部機(jī)制

    工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進(jìn)模型和減輕其故障(如幻覺或推理錯(cuò)誤)至關(guān)重要。 眾所周知,最近 LLM 成功的一個(gè)重要因素是它們能夠從上下文中學(xué)習(xí)和
    的頭像 發(fā)表于 06-25 15:08 ?1753次閱讀
    基于Transformer的大型語言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的內(nèi)部機(jī)制

    mlc-llm對大模型推理的流程及優(yōu)化方案

    在 MLC-LLM 部署RWKV World系列模型實(shí)戰(zhàn)(3B模型Mac M2解碼可達(dá)26tokens/s) 中提到要使用mlc-llm部署模型
    發(fā)表于 09-26 12:25 ?1147次閱讀
    mlc-<b class='flag-5'>llm</b>對大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>的流程及優(yōu)化方案

    Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

    ?本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs,比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進(jìn)行推理的示例。我們將
    的頭像 發(fā)表于 11-01 17:48 ?1148次閱讀
    Hugging Face <b class='flag-5'>LLM</b>部署大語言<b class='flag-5'>模型</b>到亞馬遜云科技Amazon SageMaker<b class='flag-5'>推理</b>示例

    自然語言處理應(yīng)用LLM推理優(yōu)化綜述

    當(dāng)前,業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時(shí),同時(shí)也在探索從大模型自回歸解碼特點(diǎn)出發(fā),通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進(jìn)一步提升
    發(fā)表于 04-10 11:48 ?844次閱讀
    自然語言處理應(yīng)用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>優(yōu)化綜述

    LLM模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對
    的頭像 發(fā)表于 07-24 11:38 ?1500次閱讀

    阿里云發(fā)布開源多模態(tài)推理模型QVQ-72B-Preview

    近日,阿里云宣布了一項(xiàng)重大技術(shù)突破,正式發(fā)布了業(yè)界首個(gè)開源多模態(tài)推理模型——QVQ-72B-Preview。這一模型的問世,標(biāo)志著阿里云在AI技術(shù)領(lǐng)域的又一次重要飛躍
    的頭像 發(fā)表于 12-27 10:28 ?448次閱讀

    智譜GLM-Zero深度推理模型預(yù)覽版正式上線

    近日,智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個(gè)基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型,標(biāo)志著智譜在AI推理領(lǐng)域
    的頭像 發(fā)表于 01-02 10:55 ?392次閱讀

    智譜推出深度推理模型GLM-Zero預(yù)覽版

    近日,智譜公司正式發(fā)布了其深度推理模型GLM-Zero的預(yù)覽版——GLM-Zero-Preview。這款模型標(biāo)志著智譜在擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練推理模型方面的重大突破,成為其首個(gè)專注于增強(qiáng)AI推理
    的頭像 發(fā)表于 01-03 10:42 ?375次閱讀

    科大訊飛即將發(fā)布訊飛星火深度推理模型X1

    近日,科大訊飛在1月7日成功舉辦的辦公智能體產(chǎn)品升級發(fā)布會上,宣布了一項(xiàng)令人振奮的新進(jìn)展。據(jù)科大訊飛官方透露,公司將于1月15日正式對外發(fā)布其最新的“訊飛星火深度推理模型X1”。 這一新模型的發(fā)布
    的頭像 發(fā)表于 01-08 10:30 ?600次閱讀

    科大訊飛發(fā)布星火深度推理模型X1

    今天,科大訊飛正式發(fā)布星火深度推理模型X1,星火4.0 Turbo底座全面升級,首發(fā)星火語音同傳大模型。
    的頭像 發(fā)表于 01-15 15:54 ?540次閱讀

    新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺

    LLM630LLM推理,視覺識別,可開發(fā),靈活擴(kuò)展···LLM630ComputeKit是一款A(yù)I大語言模型推理開發(fā)平臺,專為邊緣計(jì)算和智能
    的頭像 發(fā)表于 01-17 18:48 ?501次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>開發(fā)平臺

    新品 | Module LLM Kit,離線大語言模型推理模塊套裝

    推理與數(shù)據(jù)交互需求。ModuleLLM是一款集成化的離線大語言模型(LLM)推理模塊,專為需要高效、智能交互的終端設(shè)備設(shè)計(jì)。Module13.2LLMMate模塊
    的頭像 發(fā)表于 03-28 18:49 ?166次閱讀
    新品 | Module <b class='flag-5'>LLM</b> Kit,離線大語言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>模塊套裝