一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大型語(yǔ)言模型綜述全新出爐!從T5到GPT-4最全盤點(diǎn)

CVer ? 來(lái)源:機(jī)器之心 ? 2023-04-04 14:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為什么仿佛一夜之間,自然語(yǔ)言處理(NLP)領(lǐng)域就突然突飛猛進(jìn),摸到了通用人工智能的門檻?如今的大語(yǔ)言模型(LLM)發(fā)展到了什么程度?未來(lái)短時(shí)間內(nèi),AGI 的發(fā)展路線又將如何?

自 20 世紀(jì) 50 年代圖靈測(cè)試提出以來(lái),人們始終在探索機(jī)器處理語(yǔ)言智能的能力。語(yǔ)言本質(zhì)上是一個(gè)錯(cuò)綜復(fù)雜的人類表達(dá)系統(tǒng),受到語(yǔ)法規(guī)則的約束。因此,開發(fā)能夠理解和精通語(yǔ)言的強(qiáng)大 AI 算法面臨著巨大挑戰(zhàn)。過(guò)去二十年,語(yǔ)言建模方法被廣泛用于語(yǔ)言理解和生成,包括統(tǒng)計(jì)語(yǔ)言模型和神經(jīng)語(yǔ)言模型。

近些年,研究人員通過(guò)在大規(guī)模語(yǔ)料庫(kù)上預(yù)訓(xùn)練 Transformer 模型產(chǎn)生了預(yù)訓(xùn)練語(yǔ)言模型(PLMs),并在解決各類 NLP 任務(wù)上展現(xiàn)出了強(qiáng)大的能力。并且研究人員發(fā)現(xiàn)模型縮放可以帶來(lái)性能提升,因此他們通過(guò)將模型規(guī)模增大進(jìn)一步研究縮放的效果。有趣的是,當(dāng)參數(shù)規(guī)模超過(guò)一定水平時(shí),這個(gè)更大的語(yǔ)言模型實(shí)現(xiàn)了顯著的性能提升,并出現(xiàn)了小模型中不存在的能力,比如上下文學(xué)習(xí)。為了區(qū)別于 PLM,這類模型被稱為大型語(yǔ)言模型(LLMs)。

從 2019 年的谷歌 T5 到 OpenAI GPT 系列,參數(shù)量爆炸的大模型不斷涌現(xiàn)。可以說(shuō),LLMs 的研究在學(xué)界和業(yè)界都得到了很大的推進(jìn),尤其去年 11 月底對(duì)話大模型 ChatGPT 的出現(xiàn)更是引起了社會(huì)各界的廣泛關(guān)注。LLMs 的技術(shù)進(jìn)展對(duì)整個(gè) AI 社區(qū)產(chǎn)生了重要影響,并將徹底改變?nèi)藗冮_發(fā)和使用 AI 算法的方式。

考慮到 LLMs 的快速技術(shù)進(jìn)步,中國(guó)人民大學(xué)的二十幾位研究者通過(guò)背景知識(shí)、關(guān)鍵發(fā)現(xiàn)和主流技術(shù)等三方面回顧了 LLMs 的最新進(jìn)展,尤其關(guān)注 LLMs 的預(yù)訓(xùn)練、自適應(yīng)調(diào)優(yōu)、使用和能力評(píng)估。此外他們還總結(jié)和開發(fā) LLMs 的可用資源,討論了未來(lái)發(fā)展方向等問(wèn)題。對(duì)于領(lǐng)域內(nèi)研究人員和工程師而言,這份綜述是一份極其有用的學(xué)習(xí)資源。

dc65a1cc-d2ab-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2303.18223

在進(jìn)入正文前,我們先來(lái)看 2019 年以來(lái)出現(xiàn)的各種大語(yǔ)言模型(百億參數(shù)以上)時(shí)間軸,其中標(biāo)黃的大模型已開源。

dc7a4cbc-d2ab-11ed-bfe3-dac502259ad0.png

LLMs 概覽

在第一節(jié)中,研究者詳細(xì)介紹了 LLMs 的背景、能力和關(guān)鍵技術(shù)。

LLMs 的背景

通常,大型語(yǔ)言模型(LLM)是指包含數(shù)千億(或更多)參數(shù)的語(yǔ)言模型,這些參數(shù)是在大量文本數(shù)據(jù)上訓(xùn)練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來(lái)說(shuō),LLM 建立在 Transformer 架構(gòu)之上,其中多頭注意力層堆疊在一個(gè)非常深的神經(jīng)網(wǎng)絡(luò)中?,F(xiàn)有的 LLM 主要采用與小語(yǔ)言模型類似的模型架構(gòu)(即 Transformer)和預(yù)訓(xùn)練目標(biāo)(即語(yǔ)言建模)。作為主要區(qū)別,LLM 在很大程度上擴(kuò)展了模型大小、預(yù)訓(xùn)練數(shù)據(jù)和總計(jì)算量(擴(kuò)大倍數(shù))。他們可以更好地理解自然語(yǔ)言,并根據(jù)給定的上下文(例如 prompt)生成高質(zhì)量的文本。這種容量改進(jìn)可以用標(biāo)度律進(jìn)行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據(jù)標(biāo)度律,某些能力(例如,上下文學(xué)習(xí))是不可預(yù)測(cè)的,只有當(dāng)模型大小超過(guò)某個(gè)水平時(shí)才能觀察到。

LLMs 的涌現(xiàn)能力

LLM 的涌現(xiàn)能力被正式定義為「在小型模型中不存在但在大型模型中出現(xiàn)的能力」,這是 LLM 與以前的 PLM 區(qū)分開來(lái)的最顯著特征之一。當(dāng)出現(xiàn)這種新的能力時(shí),它還引入了一個(gè)顯著的特征:當(dāng)規(guī)模達(dá)到一定水平時(shí),性能顯著高于隨機(jī)的狀態(tài)。以此類推,這種新模式與物理學(xué)中的相變現(xiàn)象密切相關(guān)。原則上,這種能力也可以與一些復(fù)雜的任務(wù)有關(guān),而人們更關(guān)心可以應(yīng)用于解決多個(gè)任務(wù)的通用能力。這里簡(jiǎn)要介紹了 LLM 的三種代表性的涌現(xiàn)能力:

上下文學(xué)習(xí)。GPT-3 正式引入了上下文學(xué)習(xí)能力:假設(shè)語(yǔ)言模型已經(jīng)提供了自然語(yǔ)言指令和多個(gè)任務(wù)描述,它可以通過(guò)完成輸入文本的詞序列來(lái)生成測(cè)試實(shí)例的預(yù)期輸出,而無(wú)需額外的訓(xùn)練或梯度更新。

指令遵循。通過(guò)對(duì)自然語(yǔ)言描述(即指令)格式化的多任務(wù)數(shù)據(jù)集的混合進(jìn)行微調(diào),LLM 在微小的任務(wù)上表現(xiàn)良好,這些任務(wù)也以指令的形式所描述。這種能力下,指令調(diào)優(yōu)使 LLM 能夠在不使用顯式樣本的情況下通過(guò)理解任務(wù)指令來(lái)執(zhí)行新任務(wù),這可以大大提高泛化能力。

循序漸進(jìn)的推理。對(duì)于小語(yǔ)言模型,通常很難解決涉及多個(gè)推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)學(xué)科單詞問(wèn)題。同時(shí),通過(guò)思維鏈推理策略,LLM 可以通過(guò)利用涉及中間推理步驟的 prompt 機(jī)制來(lái)解決此類任務(wù)得出最終答案。據(jù)推測(cè),這種能力可能是通過(guò)代碼訓(xùn)練獲得的。

關(guān)鍵技術(shù)

接下來(lái)來(lái)看 LLMs 的關(guān)鍵技術(shù),包括了縮放、訓(xùn)練、能力激發(fā)、對(duì)齊調(diào)優(yōu)、工具利用等。

縮放??s放是增加 LLMs 模型容量的關(guān)鍵因素,最開始 GPT-3 將模型參數(shù)增至 1750 億,隨后 PaLM 進(jìn)一步將模型參數(shù)增至 5400 億。大規(guī)模參數(shù)對(duì)于涌現(xiàn)能力至關(guān)重要。縮放不僅針對(duì)模型大小,還與數(shù)據(jù)大小和總計(jì)算量有關(guān)。

訓(xùn)練。由于規(guī)模巨大,成功訓(xùn)練一個(gè)具備強(qiáng)大能力的 LLMs 非常具有挑戰(zhàn)性。因此需要分布式訓(xùn)練算法來(lái)學(xué)習(xí) LLMs 的網(wǎng)絡(luò)參數(shù),經(jīng)常聯(lián)合使用各種并行策略。為了支持分布式訓(xùn)練,DeepSpeed 和 Megatron-LM 等優(yōu)化框架被用來(lái)促進(jìn)并行算法的實(shí)現(xiàn)和部署。此外,優(yōu)化技巧對(duì)訓(xùn)練穩(wěn)定性和模型性能也很重要,例如重新啟動(dòng)訓(xùn)練損失尖峰和混合精度訓(xùn)練。最近的 GPT-4 開發(fā)了特殊的基礎(chǔ)設(shè)施和優(yōu)化方法,從而利用小得多的模型來(lái)預(yù)測(cè)大模型的性能。

能力激發(fā)。在大規(guī)模語(yǔ)料庫(kù)上經(jīng)過(guò)預(yù)訓(xùn)練后,LLMs 被賦予了解決一般任務(wù)的潛在能力。然而當(dāng) LLMs 執(zhí)行某個(gè)特定任務(wù)時(shí),這些能力可能不會(huì)顯式地表現(xiàn)出來(lái)。因此設(shè)計(jì)適合的任務(wù)指令或特定的上下文策略來(lái)激發(fā)這些能力非常有用,比如思維鏈 prompt 有助于通過(guò)中間推理步驟等解決復(fù)雜推理任務(wù)。此外還可以進(jìn)一步對(duì)具有自然語(yǔ)言任務(wù)描述的 LLMs 進(jìn)行指令調(diào)優(yōu),以提高對(duì)未見過(guò)任務(wù)的泛化能力。

對(duì)齊調(diào)優(yōu)。由于 LLMs 被訓(xùn)練用來(lái)捕獲預(yù)訓(xùn)練語(yǔ)料庫(kù)的數(shù)據(jù)特征(包括高質(zhì)量和低質(zhì)量的數(shù)據(jù)),它們很可能生成對(duì)有毒、有偏見和有害的文本內(nèi)容。為了使 LLMs 與人類價(jià)值觀保持一致,InstructGPT 設(shè)計(jì)了一種利用強(qiáng)化學(xué)習(xí)和人類反饋的高效調(diào)優(yōu)方法,使得 LLMs 能夠遵循預(yù)期指令。ChatGPT 是在類似 InstructGPT 的技術(shù)上開發(fā)的,在產(chǎn)生高質(zhì)量、無(wú)害的響應(yīng)方面表現(xiàn)出了強(qiáng)大的對(duì)齊能力。

工具利用。LLMs 本質(zhì)上是基于大規(guī)模純文本語(yǔ)料庫(kù)訓(xùn)練的文本生成器,因此在數(shù)值計(jì)算等文本表達(dá)不佳的任務(wù)上表現(xiàn)沒(méi)那么好。此外 LLMs 的能力受限于預(yù)訓(xùn)練數(shù)據(jù),無(wú)法捕獲最新信息。針對(duì)這些問(wèn)題,人們提出使用外部工具來(lái)彌補(bǔ) LLMs 的不足,比如可以利用計(jì)算器進(jìn)行精確計(jì)算,使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來(lái)聯(lián)網(wǎng)學(xué)習(xí)新知識(shí),這種機(jī)制可以廣泛擴(kuò)展 LLMs 的能力范圍。

LLMs 資源

考慮到具有挑戰(zhàn)性的技術(shù)問(wèn)題和巨大的計(jì)算資源需求,開發(fā)或復(fù)制 LLMs 絕不是一件容易的事情。一個(gè)可行的方法是從現(xiàn)有的 LLMs 中學(xué)習(xí)經(jīng)驗(yàn),并重新使用公開的資源來(lái)進(jìn)行漸進(jìn)式的開發(fā)或?qū)嶒?yàn)研究。

在第三節(jié)中,研究者主要總結(jié)了開源的模型檢查點(diǎn)或 API、可用的語(yǔ)料庫(kù)以及對(duì) LLM 有用的庫(kù)。下表 1 為近年來(lái)百億參數(shù)以上大模型的統(tǒng)計(jì)數(shù)據(jù)。

dcabf014-d2ab-11ed-bfe3-dac502259ad0.png

下表 2 列出了常用的數(shù)據(jù)源。

dcee4536-d2ab-11ed-bfe3-dac502259ad0.png

預(yù)訓(xùn)練

預(yù)訓(xùn)練建立了 LLMs 的能力基礎(chǔ)。通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)的預(yù)訓(xùn)練,LLMs 可以獲得基本的語(yǔ)言理解和生成技能。在這個(gè)過(guò)程中,預(yù)訓(xùn)練語(yǔ)料庫(kù)的規(guī)模和質(zhì)量是 LLMs 獲得強(qiáng)大能力的關(guān)鍵。此外,為了有效地預(yù)訓(xùn)練 LLMs,模型架構(gòu)、加速方法和優(yōu)化技術(shù)都需要精心設(shè)計(jì)。在第四節(jié)中,研究者首先在第 4.1 節(jié)討論了數(shù)據(jù)的收集和處理,然后在第 4.2 節(jié)介紹了常用的模型架構(gòu),最后在第 4.3 節(jié)介紹了穩(wěn)定和有效優(yōu)化 LLMs 的訓(xùn)練技術(shù)。

數(shù)據(jù)收集

要開發(fā)一個(gè)強(qiáng)大的 LLM,從各種數(shù)據(jù)源中收集大量的自然語(yǔ)言語(yǔ)料至關(guān)重要?,F(xiàn)有 LLMs 主要利用各種公共文本數(shù)據(jù)集作為預(yù)訓(xùn)練語(yǔ)料庫(kù)。下圖 2 列出了現(xiàn)有 LLMs 的預(yù)訓(xùn)練數(shù)據(jù)源分布。

dd1d45b6-d2ab-11ed-bfe3-dac502259ad0.png

收集大量文本數(shù)據(jù)后,必須對(duì)它們進(jìn)行預(yù)訓(xùn)練以構(gòu)建預(yù)訓(xùn)練語(yǔ)料庫(kù),包括去噪、去冗余、去除不相關(guān)和潛在有毒的數(shù)據(jù)。下圖 3 展示了為 LLMs 預(yù)訓(xùn)練數(shù)據(jù)的預(yù)處理 pipeline。

dd35a2be-d2ab-11ed-bfe3-dac502259ad0.png

架構(gòu)

在本節(jié)中,研究者回顧了 LLMs 的架構(gòu)設(shè)計(jì),即主流架構(gòu),預(yù)訓(xùn)練目標(biāo)和細(xì)節(jié)配置。下表 3 列出了幾個(gè)具有代表性的 LLMs 的模型卡片以及公開的詳細(xì)信息。

dd44f20a-d2ab-11ed-bfe3-dac502259ad0.png

由于出色的并行化性和容量,Transformer 架構(gòu)已成為開發(fā)各種 LLM 的 backbone,使得將語(yǔ)言模型擴(kuò)展到數(shù)千億個(gè)參數(shù)成為可能。一般來(lái)說(shuō),現(xiàn)有 LLMs 的主流架構(gòu)大致可以分為三大類,即編碼器 - 解碼器、臨時(shí)解碼器和前綴解碼器。

自 Transformer 出現(xiàn)以來(lái),各種改進(jìn)被相繼提出以提高其訓(xùn)練穩(wěn)定性,性能和計(jì)算效率。在這一部分中,研究者討論了 Transformer 四個(gè)主要部分的相應(yīng)配置,包括歸一化、位置編碼、激活函數(shù)、注意力機(jī)制和偏置。

預(yù)訓(xùn)練起著十分關(guān)鍵的作用,它將一般知識(shí)從大規(guī)模語(yǔ)料庫(kù)編碼到大規(guī)模模型參數(shù)中。對(duì)于訓(xùn)練 LLMs,有語(yǔ)言建模和去噪自編碼兩個(gè)常用的預(yù)訓(xùn)練任務(wù)。

模型訓(xùn)練

在這一部分中,研究者回顧了訓(xùn)練 LLMs 的重要設(shè)置,技術(shù)和訓(xùn)練 LLMs 技巧。

對(duì)于 LLMs 的參數(shù)優(yōu)化,研究者提出了常用的批量訓(xùn)練、學(xué)習(xí)率、優(yōu)化器和訓(xùn)練穩(wěn)定性的設(shè)置。

隨著模型和數(shù)據(jù)規(guī)模的增加,在有限的計(jì)算資源下有效地訓(xùn)練 LLMs 模型已經(jīng)變得困難。特別是,需要解決兩個(gè)主要技術(shù)問(wèn)題,例如通過(guò)輸入增加訓(xùn)練和將更大的模型加載到 GPU 內(nèi)存中。這一部分回顧了現(xiàn)有工作中幾種廣泛使用的方法,以解決上述兩個(gè)挑戰(zhàn),即 3D 并行、ZeRO 和混合精度訓(xùn)練,并就如何利用它們進(jìn)行訓(xùn)練給出了建議。

LLMs 的適應(yīng)性調(diào)優(yōu)

經(jīng)過(guò)預(yù)訓(xùn)練,LLMs 可以獲得解決各種任務(wù)的通用能力。然而越來(lái)越多的研究表明,LLMs 的能力可以根據(jù)具體目標(biāo)進(jìn)一步調(diào)整。在第五節(jié)中,研究者詳細(xì)介紹了調(diào)整預(yù)訓(xùn)練 LLMs 的兩個(gè)主要方法,即指令調(diào)優(yōu)(instruction tuning)和對(duì)齊調(diào)優(yōu)(alignment tuning)。前一種方法主要是為了提高或解鎖 LLMs 的能力,而后一種方法則是為了使 LLMs 的行為與人類的價(jià)值觀或偏好一致。

指令調(diào)優(yōu)

本質(zhì)上,指令調(diào)優(yōu)是在自然語(yǔ)言形式的格式化實(shí)例集合上微調(diào)預(yù)訓(xùn)練 LLMs 的方法,這與監(jiān)督微調(diào)和多任務(wù)提示訓(xùn)練高度相關(guān)。為了執(zhí)行指令調(diào)優(yōu),我們首先需要收集或構(gòu)建指令格式的實(shí)例。然后,我們通常使用這些格式化實(shí)例以監(jiān)督學(xué)習(xí)方式微調(diào) LLMs(例如,使用序列到序列損失進(jìn)行訓(xùn)練)。在指令調(diào)整后,LLMs 可以展示出卓越的能力,泛化出能解決未見任務(wù)的能力,即使在多語(yǔ)言環(huán)境中也是如此。

最近的一項(xiàng)調(diào)查對(duì)指令調(diào)優(yōu)研究進(jìn)行了系統(tǒng)的概述。相比之下,本文主要關(guān)注指令調(diào)優(yōu)對(duì) LLMs 的影響,并提供實(shí)例收集和調(diào)優(yōu)的詳細(xì)指南或策略。此外,本文還討論了使用指令調(diào)優(yōu)來(lái)滿足用戶的實(shí)際需求,這已廣泛應(yīng)用于現(xiàn)有的 LLMs,例如 InstructGPT 和 GPT-4。

格式化實(shí)例構(gòu)建:通常,指令格式的實(shí)例由任務(wù)描述(稱為指令)、輸入輸出對(duì)和少量演示(可選)組成。作為重要的公共資源,現(xiàn)有研究已經(jīng)發(fā)布了大量以自然語(yǔ)言格式化的標(biāo)記數(shù)據(jù)(參見表 5 中的可用資源列表)。接下來(lái),本文將介紹構(gòu)造格式化實(shí)例的兩種主要方法(參見圖 4 中的插圖),然后討論實(shí)例構(gòu)造的幾個(gè)關(guān)鍵因素。

指令調(diào)優(yōu)策略:與預(yù)訓(xùn)練不同,指令調(diào)優(yōu)通常更有效,因?yàn)橹挥羞m度數(shù)量的實(shí)例用于訓(xùn)練。雖然指令調(diào)優(yōu)可以被認(rèn)為是一個(gè)有監(jiān)督的訓(xùn)練過(guò)程,但它的優(yōu)化在幾個(gè)方面與預(yù)訓(xùn)練不同,例如訓(xùn)練目標(biāo)(即序列到序列損失)和優(yōu)化配置(例如更小的批次) 大小和學(xué)習(xí)率),這在實(shí)踐中需要特別注意。除了這些優(yōu)化配置之外,指令調(diào)優(yōu)還需要考慮兩個(gè)重要方面:

平衡數(shù)據(jù)分布。

結(jié)合指令調(diào)優(yōu)和預(yù)訓(xùn)練。

dd6c4468-d2ab-11ed-bfe3-dac502259ad0.png

對(duì)齊調(diào)優(yōu)

這部分首先介紹了對(duì)齊的背景及其定義和標(biāo)準(zhǔn),然后重點(diǎn)介紹了用于對(duì)齊 LLMs 的人類反饋數(shù)據(jù)的收集,最后討論了用于對(duì)齊調(diào)整的人類反饋強(qiáng)化學(xué)習(xí)的關(guān)鍵技術(shù)。

dd86449e-d2ab-11ed-bfe3-dac502259ad0.png

使用

在預(yù)訓(xùn)練或適應(yīng)性調(diào)整之后,使用 LLMs 的一個(gè)主要方法是為解決各種任務(wù)設(shè)計(jì)合適的 prompt 策略。一個(gè)典型的 prompt 方法是上下文學(xué)習(xí)(in-context learning),它以自然語(yǔ)言文本的形式制定了任務(wù)描述或演示。此外,思維鏈 prompting 方法可以通過(guò)將一系列中間推理步驟納入 prompt 中來(lái)加強(qiáng)上下文學(xué)習(xí)。在第六節(jié)中,研究者詳細(xì)介紹了這兩種技術(shù)的細(xì)節(jié)。

上下文學(xué)習(xí)

ddb576e2-d2ab-11ed-bfe3-dac502259ad0.png

作為一種特殊的 prompt 形式,上下文學(xué)習(xí)(ICL)是 GPT-3 首次提出的,它已經(jīng)成為利用 LLMs 的一種典型方法。

思維鏈 prompt

思維鏈(CoT)是一種改進(jìn)的 prompt 策略,可以提高 LLM 在復(fù)雜推理任務(wù)中的表現(xiàn),如算術(shù)推理、常識(shí)推理和符號(hào)推理。CoT 不是像 ICL 那樣簡(jiǎn)單地用輸入 - 輸出對(duì)來(lái)構(gòu)建 prompt,而是將能夠?qū)е伦罱K輸出的中間推理步驟納入 prompt。在第 6.2 節(jié)中,研究者詳細(xì)說(shuō)明了 CoT 與 ICL 的用法,并討論 CoT 何時(shí)有效以及為何有效。

能力評(píng)估

為了研究 LLMs 的有效性和優(yōu)越性,研究者利用了大量的任務(wù)和基準(zhǔn)來(lái)進(jìn)行實(shí)證評(píng)估和分析。第七節(jié)首先介紹了三種用于語(yǔ)言生成和理解的 LLMs 的基本評(píng)估任務(wù),然后介紹幾種具有更復(fù)雜設(shè)置或目標(biāo)的 LLMs 的高級(jí)任務(wù),最后討論了現(xiàn)有的基準(zhǔn)和實(shí)證分析。

基本評(píng)估任務(wù)

ddcbf08e-d2ab-11ed-bfe3-dac502259ad0.png

ddeccc6e-d2ab-11ed-bfe3-dac502259ad0.png

圖 7:一個(gè)公開 LLM 的內(nèi)在和外在幻覺的例子(訪問(wèn)日期:2023 年 3 月 19 日)。作為內(nèi)在幻覺的例子,LLM 對(duì) Cindy 和 Amy 之間的關(guān)系給出了一個(gè)與輸入相矛盾的判斷。對(duì)于外在幻覺,在這個(gè)例子中,LLM 似乎對(duì) RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))的含義有不正確的理解,盡管它能正確理解 LLM 的含義。

高級(jí)任務(wù)評(píng)估

除了上述基本評(píng)估任務(wù),LLMs 還表現(xiàn)出一些高級(jí)能力,需要特別評(píng)估。在第 7.2 節(jié)中,研究者討論了幾個(gè)有代表性的高級(jí)能力和相應(yīng)的評(píng)價(jià)方法,包括人工對(duì)齊、與外部環(huán)境的交互以及工具的操作。

總結(jié)與未來(lái)方向

在最后一節(jié)中,研究者總結(jié)了這次調(diào)查的討論,并從以下幾個(gè)方面介紹了 LLMs 的挑戰(zhàn)和未來(lái)發(fā)展方向。

理論和原理:為了理解 LLM 的基本工作機(jī)制,最大的謎團(tuán)之一是信息如何通過(guò)非常大的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分配、組織和利用。揭示建立 LLMs 能力基礎(chǔ)的基本原則或元素是很重要的。特別是,縮放似乎在提高 LLMs 的能力方面發(fā)揮了重要作用。已有研究表明,當(dāng)語(yǔ)言模型的參數(shù)規(guī)模增加到一個(gè)臨界點(diǎn)(如 10B)時(shí),一些新興能力會(huì)以一種意想不到的方式出現(xiàn)(性能的突然飛躍),典型的包括上下文學(xué)習(xí)、指令跟隨和分步推理。這些「涌現(xiàn)」的能力令人著迷,但也令人困惑:LLMs 何時(shí)以及如何獲得這些能力?最近的一些研究要么是進(jìn)行廣泛的體驗(yàn),調(diào)查新興能力的效果和這些能力的促成因素,要么是用現(xiàn)有的理論框架解釋一些特定的能力。一個(gè)有見地的技術(shù)帖子將 GPT 系列模型作為目標(biāo)也專門討論了這個(gè)話題,然而仍然缺少更正式的理論和原則來(lái)理解、描述和解釋 LLM 的能力或行為。由于涌現(xiàn)能力與自然界中的相變有著密切的相似性,跨學(xué)科的理論或原則(例如 LLMs 是否可以被視為某種復(fù)雜系統(tǒng))可能對(duì)解釋和理解 LLMs 的行為有幫助。這些基本問(wèn)題值得研究界探索,對(duì)于開發(fā)下一代的 LLMs 很重要。

模型架構(gòu):由于可擴(kuò)展性和有效性,由堆疊的多頭自注意力層組成的 Transformer 已經(jīng)成為構(gòu)建 LLMs 的普遍架構(gòu)。人們提出了各種策略來(lái)提高這個(gè)架構(gòu)的性能,如神經(jīng)網(wǎng)絡(luò)配置和可擴(kuò)展的并行訓(xùn)練(見 4.2.2 節(jié)討論)。為了進(jìn)一步提高模型的容量(如多輪對(duì)話能力),現(xiàn)有的 LLMs 通常保持較長(zhǎng)的上下文長(zhǎng)度,例如,GPT-4-32k 具有 32768 個(gè) token 的超大上下文長(zhǎng)度。因此,一個(gè)實(shí)際的考慮是減少標(biāo)準(zhǔn)的自注意力機(jī)制所產(chǎn)生的時(shí)間復(fù)雜性(原始的二次成本)。

此外,研究更高效的 Transformer 變體對(duì)構(gòu)建 LLMs 的影響是很重要的,例如稀疏注意力已經(jīng)被用于 GPT-3。災(zāi)難性遺忘也一直是神經(jīng)網(wǎng)絡(luò)的挑戰(zhàn),這也對(duì) LLMs 產(chǎn)生了負(fù)面影響。當(dāng)用新的數(shù)據(jù)調(diào)整 LLMs 時(shí),原先學(xué)到的知識(shí)很可能被破壞,例如根據(jù)一些特定的任務(wù)對(duì) LLMs 進(jìn)行微調(diào)會(huì)影響它們的通用能力。當(dāng) LLMs 與人類的價(jià)值觀相一致時(shí),也會(huì)出現(xiàn)類似的情況,這被稱為對(duì)齊稅(alignment tax)。因此有必要考慮用更靈活的機(jī)制或模塊來(lái)擴(kuò)展現(xiàn)有的架構(gòu),以有效支持?jǐn)?shù)據(jù)更新和任務(wù)專業(yè)化。

模型訓(xùn)練:在實(shí)踐中,由于巨大的計(jì)算量以及對(duì)數(shù)據(jù)質(zhì)量和訓(xùn)練技巧的敏感性,預(yù)訓(xùn)練可用的 LLMs 非常困難。因此,考慮到模型有效性、效率優(yōu)化和訓(xùn)練穩(wěn)定性等因素,開發(fā)更系統(tǒng)、更經(jīng)濟(jì)的預(yù)訓(xùn)練方法來(lái)優(yōu)化 LLMs 變得尤為重要。開發(fā)更多的模型檢查或性能診斷方法(例如 GPT-4 中的可預(yù)測(cè)縮放),便于在訓(xùn)練中發(fā)現(xiàn)早期的異常問(wèn)題。此外,它還要求有更靈活的硬件支持或資源調(diào)度機(jī)制,以便更好地組織和利用計(jì)算集群中的資源。由于從頭開始預(yù)訓(xùn)練 LLMs 的成本很高,因此必須設(shè)計(jì)一個(gè)合適的機(jī)制,根據(jù)公開的模型檢查點(diǎn)(例如 LLaMA 和 Flan-T5)不斷地預(yù)訓(xùn)練或微調(diào) LLMs。為此,必須解決一些技術(shù)問(wèn)題,包括數(shù)據(jù)不一致、災(zāi)難性遺忘和任務(wù)專業(yè)化。到目前為止,仍然缺乏具有完整的預(yù)處理和訓(xùn)練日志(例如準(zhǔn)備預(yù)訓(xùn)練數(shù)據(jù)的腳本)的開源模型檢查點(diǎn)以供重現(xiàn)的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價(jià)值的。此外,開發(fā)更多的改進(jìn)調(diào)整策略和研究有效激發(fā)模型能力的機(jī)制也很重要。

模型的使用:由于微調(diào)在實(shí)際應(yīng)用中的成本很高,prompt 已經(jīng)成為使用 LLMs 的突出方法。通過(guò)將任務(wù)描述和演示例子結(jié)合到 prompt 中,上下文學(xué)習(xí)(prompt 的一種特殊形式)賦予了 LLMs 在新任務(wù)上良好的表現(xiàn),甚至在某些情況下超過(guò)了全數(shù)據(jù)微調(diào)模型。此外,為了提高復(fù)雜推理的能力,人們提出了先進(jìn)的 prompt 技術(shù),例如思維鏈(CoT)策略,它將中間的推理步驟納入 prompt。然而,現(xiàn)有的 prompt 方法仍然有以下幾個(gè)不足之處。首先,它在設(shè)計(jì) prompt 時(shí)需要大量的人力,因此為解決各種任務(wù)而自動(dòng)生成有效的 prompt 將非常有用;其次,一些復(fù)雜的任務(wù)(如形式證明和數(shù)字計(jì)算)需要特定的知識(shí)或邏輯規(guī)則,而這些知識(shí)或規(guī)則可能無(wú)法用自然語(yǔ)言描述或用例子來(lái)證明,因此開發(fā)信息量更大、更靈活的任務(wù)格式化的 prompt 方法很重要;第三,現(xiàn)有的 prompt 策略主要集中在單圈的表現(xiàn)上,因此開發(fā)用于解決復(fù)雜任務(wù)的交互式 prompt 機(jī)制(如通過(guò)自然語(yǔ)言對(duì)話)非常有用,ChatGPT 已經(jīng)證明了這一點(diǎn)。

安全和對(duì)齊:盡管 LLMs 具備相當(dāng)?shù)哪芰?,但它的安全?wèn)題與小型語(yǔ)言模型相似。例如,LLMs 表現(xiàn)出產(chǎn)生幻覺文本的傾向,比如那些看似合理但可能與事實(shí)不符的文本。更糟糕的是,LLMs 可能被有意的指令激發(fā),為惡意的系統(tǒng)產(chǎn)生有害的、有偏見的或有毒的文本,導(dǎo)致濫用的潛在風(fēng)險(xiǎn)。要詳細(xì)討論 LLMs 的其他安全問(wèn)題(如隱私、過(guò)度依賴、虛假信息和影響操作),讀者可以參考 GPT-3/4 技術(shù)報(bào)告。作為避免這些問(wèn)題的主要方法,來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)已被廣泛使用,它將人類納入訓(xùn)練循環(huán),以發(fā)展良好的 LLMs。為了提高模型的安全性,在 RLHF 過(guò)程中加入安全相關(guān)的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依賴于專業(yè)標(biāo)簽人員的高質(zhì)量的人類反饋數(shù)據(jù),使得它很難在實(shí)踐中得到正確的實(shí)施。因此,有必要改進(jìn) RLHF 框架,以減少人類標(biāo)簽員的工作,并尋求一種更有效的注釋方法,保證數(shù)據(jù)質(zhì)量,例如可以采用 LLMs 來(lái)協(xié)助標(biāo)注工作。最近,紅色團(tuán)隊(duì)被采用來(lái)提高 LLMs 的模型安全性,它利用收集的對(duì)抗性 prompt 來(lái)完善 LLMs(即避免紅色團(tuán)隊(duì)的攻擊)。此外,通過(guò)與人類交流建立 LLMs 的學(xué)習(xí)機(jī)制也很有意義,人類通過(guò)聊天給出的反饋可以直接被 LLMs 利用來(lái)進(jìn)行自我完善。

應(yīng)用和生態(tài)系統(tǒng):由于 LLMs 在解決各種任務(wù)方面表現(xiàn)出強(qiáng)大的能力,它們可以被應(yīng)用于廣泛的現(xiàn)實(shí)世界的應(yīng)用(例如,遵循特定的自然語(yǔ)言指令)。作為一個(gè)顯著的進(jìn)步,ChatGPT 已經(jīng)潛在地改變了人類獲取信息的方式,這帶來(lái)了新必應(yīng)的發(fā)布。在不久的將來(lái),可以預(yù)見,LLMs 將對(duì)信息搜索技術(shù)產(chǎn)生重大影響,包括搜索引擎和識(shí)別系統(tǒng)。

此外,隨著 LLMs 的技術(shù)升級(jí),智能信息助理的發(fā)展和使用將得到極大的促進(jìn)。在更廣泛的范圍內(nèi),這一波技術(shù)創(chuàng)新傾向于建立一個(gè)由 LLMs 授權(quán)的應(yīng)用程序的生態(tài)系統(tǒng)(例如,ChatGPT 對(duì)插件的支持),這將與人類生活密切相關(guān)。最后,LLMs 的崛起為通用人工智能(AGI)的探索提供了啟示。它有希望開發(fā)出比以往更多的智能系統(tǒng)(可能有多模態(tài)信號(hào))。同時(shí),在這個(gè)發(fā)展過(guò)程中,人工智能的安全性應(yīng)該是首要關(guān)注的問(wèn)題之一,也就是說(shuō),讓人工智能為人類帶來(lái)好處而不是壞處。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10777
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22602

原文標(biāo)題:大型語(yǔ)言模型綜述全新出爐!從T5到GPT-4最全盤點(diǎn),國(guó)內(nèi)20余位研究者聯(lián)合撰寫

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA TensorRT優(yōu)化T5GPT-2

    在這篇文章中,我們向您介紹了如何將擁抱臉 PyTorch T5GPT-2 模型轉(zhuǎn)換為優(yōu)化的 TensorRT 推理引擎。 TensorRT 推理機(jī)用作原始 HuggingFace T5
    的頭像 發(fā)表于 03-31 17:25 ?4159次閱讀
    使用NVIDIA TensorRT優(yōu)化<b class='flag-5'>T5</b>和<b class='flag-5'>GPT</b>-2

    GPT-4發(fā)布!多領(lǐng)域超越“人類水平”,專家:國(guó)內(nèi)落后2-3年

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)北京時(shí)間3月15日凌晨,人工智能研究公司OpenAI正式發(fā)布了其下一代大型語(yǔ)言模型GPT-4。目前,ChatGPT的Plus訂閱用戶已經(jīng)可以使用
    的頭像 發(fā)表于 03-16 01:58 ?5107次閱讀
    <b class='flag-5'>GPT-4</b>發(fā)布!多領(lǐng)域超越“人類水平”,專家:國(guó)內(nèi)落后2-3年

    ChatGPT升級(jí) OpenAI史上最強(qiáng)大模型GPT-4發(fā)布

    是 Generative Pre-trained Transformer 4 的縮寫,即生成型預(yù)訓(xùn)練變換模型 4,是一個(gè)多模態(tài)大型語(yǔ)言
    的頭像 發(fā)表于 03-15 18:15 ?3154次閱讀

    語(yǔ)言模型GPT-4在北京高考題目上的測(cè)試結(jié)果

    計(jì)算符號(hào)的表示。針對(duì)數(shù)學(xué)和物理中的公式,我們發(fā)現(xiàn)不管用文本類輸入(如,t_0)還是用latex輸入(如, )都不影響GPT-4的理解。為了統(tǒng)一,我們都盡可能采用latex表達(dá)問(wèn)題,因此所有考試題目都由作者手敲公式輸入,不可避免有所遺漏會(huì)采用文本輸入,不過(guò)這個(gè)我們測(cè)試過(guò)不
    的頭像 發(fā)表于 03-22 14:13 ?1706次閱讀

    最新、最強(qiáng)大的模型GPT-4將向美國(guó)政府機(jī)構(gòu)開放

    最新、最強(qiáng)大的模型GPT-4將向美國(guó)政府機(jī)構(gòu)開放 此前微軟已向其商業(yè)客戶提供了OpenAI模型,現(xiàn)在微軟宣布將向azure government云計(jì)算客戶開放openai的人工智能模型
    的頭像 發(fā)表于 06-08 20:15 ?1748次閱讀

    人工通用智能的火花:GPT-4的早期實(shí)驗(yàn)

    人工智能(AI)研究人員一直在開發(fā)和完善大型語(yǔ)言模型(LLMs),這些模型在各種領(lǐng)域和任務(wù)中表現(xiàn) 出非凡的能力,挑戰(zhàn)我們對(duì)學(xué)習(xí)和認(rèn)知的理解。由OpenAI開發(fā)的最新
    發(fā)表于 06-20 15:49 ?1次下載

    GPT-4已經(jīng)會(huì)自己設(shè)計(jì)芯片了嗎?

    ? GPT-4已經(jīng)會(huì)自己設(shè)計(jì)芯片了!芯片設(shè)計(jì)行業(yè)的一個(gè)老大難問(wèn)題HDL,已經(jīng)被GPT-4順利解決。并且,它設(shè)計(jì)的130nm芯片,已經(jīng)成功流片。 GPT-4,已經(jīng)可以幫人類造芯片了! 只用簡(jiǎn)單的英語(yǔ)
    的頭像 發(fā)表于 06-20 11:51 ?1323次閱讀
    <b class='flag-5'>GPT-4</b>已經(jīng)會(huì)自己設(shè)計(jì)芯片了嗎?

    GPT-3.5 vs GPT-4:ChatGPT Plus 值得訂閱費(fèi)嗎 國(guó)內(nèi)怎么付費(fèi)?

    每月20美元)更智能、更準(zhǔn)確。 OpenAI將GPT-4描述為“比其前身GPT-3.5先進(jìn)10倍”。 自從OpenAI的大語(yǔ)言模型(LLM)GPT-
    的頭像 發(fā)表于 08-02 12:09 ?4810次閱讀
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:ChatGPT Plus 值得訂閱費(fèi)嗎 國(guó)內(nèi)怎么付費(fèi)?

    GPT-4沒(méi)有推理能力嗎?

    今年三月,OpenAI 重磅發(fā)布了 GPT-4模型,帶來(lái)了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計(jì)算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計(jì)師的使用過(guò)程中,「
    的頭像 發(fā)表于 08-11 14:20 ?1194次閱讀
    <b class='flag-5'>GPT-4</b>沒(méi)有推理能力嗎?

    OpenAI最新大模型曝光!劍指多模態(tài),GPT-4之后最大升級(jí)!

    目前為止,OpenAI還沒(méi)有對(duì)爆料中的傳聞做出回應(yīng),但此前發(fā)布過(guò)多模態(tài)模型測(cè)試。CEO奧特曼在回應(yīng)有關(guān)GPT-5的傳聞時(shí),也暗示過(guò)GPT-4“正在增強(qiáng)”。
    的頭像 發(fā)表于 09-20 17:34 ?1494次閱讀
    OpenAI最新大<b class='flag-5'>模型</b>曝光!劍指多模態(tài),<b class='flag-5'>GPT-4</b>之后最大升級(jí)!

    ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

    截止、擴(kuò)展的上下文窗口、預(yù)算友好的定價(jià)等。 什么是GPT-4 Turbo? GPT-4 Turbo是現(xiàn)有GPT-4語(yǔ)言模型的更新。它帶來(lái)了
    的頭像 發(fā)表于 12-13 09:19 ?1579次閱讀
    ChatGPT plus有什么功能?OpenAI 發(fā)布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標(biāo)桿

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語(yǔ)言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI
    的頭像 發(fā)表于 03-05 09:49 ?974次閱讀

    全球最強(qiáng)大模型易主,GPT-4被超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺方面全面超越了包括
    的頭像 發(fā)表于 03-05 09:58 ?894次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級(jí)至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發(fā)表于 03-13 13:42 ?1028次閱讀

    商湯科技發(fā)布5.0多模態(tài)大模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo

    場(chǎng)景應(yīng)用需求;升級(jí)“日日新SenseNova 5.0”大模型體系,綜合能力全面對(duì)標(biāo)GPT-4 Turbo。 此外對(duì)于文生視頻徐立也表示商湯科技很快就會(huì)發(fā)布相關(guān)的平臺(tái)產(chǎn)品。 備受矚目的商湯科技“日日新SenseNova” 5.0多模態(tài)大
    的頭像 發(fā)表于 04-24 16:49 ?1462次閱讀