国内外精品激情刺激在线,国产a桃视频传媒,91精品一区二区

號(hào)稱“世界首個(gè)上下文長(zhǎng)度達(dá)32k的開源可商用大模型”來了。

名字“簡(jiǎn)單粗暴”，就叫“長(zhǎng)頸鹿”（Giraffe），基于130億規(guī)模的Llama-2打造。

如作者所言，原始的Llama-2和Llama-1都只有4k上下文，很難真正在企業(yè)領(lǐng)域被商用。

而現(xiàn)在這個(gè)是其8倍的“Giraffe”，直接改變這一局面：

能夠一次處理更大文檔、維持更長(zhǎng)時(shí)間對(duì)話、執(zhí)行更復(fù)雜檢索且結(jié)果出錯(cuò)更少……在開源大模型界中，可謂真正的商業(yè)/企業(yè)友好。

網(wǎng)友紛紛表示：“太有用了”、“馬上就要試試”。

所以，長(zhǎng)頸鹿是如何從羊駝“進(jìn)化”而來的？

擴(kuò)充上下文長(zhǎng)度的探索

長(zhǎng)頸鹿的作者來自Abacus.AI。

這是一家搞AI數(shù)據(jù)科學(xué)平臺(tái)的初創(chuàng)企業(yè)，成立于2019年，已完成5000萬元C輪融資。

為了擴(kuò)展開源模型的上下文長(zhǎng)度，他們將目前最突出的已有方法整理在一起，并進(jìn)行徹底測(cè)試確定出最有效的方法。

在此之上，他們也提出了一些新思路，其中一種稱為“截?cái)啵╰runcation）”，它表現(xiàn)出了不小的潛力。

具體來看：

首先團(tuán)隊(duì)發(fā)現(xiàn)，目前已有的長(zhǎng)下文外推方法普遍都是通過修改注意力機(jī)制中使用的位置編碼系統(tǒng)，指示token和activation在輸入序列中的位置而完成。

包括線性縮放/位置插值、xPos、隨機(jī)化位置編碼等等。

在此，他們提出了兩種新方法。

一個(gè)叫Power Scaling，主要是對(duì)原始的RoPE編碼進(jìn)行了如下變換：

這使得基礎(chǔ)的高頻（短距離）元素比低頻（長(zhǎng)距離）元素受到的影響更小，讓模型不得不對(duì)低頻元素進(jìn)行不那么復(fù)雜的外推，從而讓整體得到提升。

另一個(gè)方法叫Truncated Basis（也就是上面所說的“截?cái)唷保?，主要是?duì)原始RoPE編碼進(jìn)行了如下變換：

其中ρ是一個(gè)相對(duì)較小的固定值，a和b是選定的截止值。

作者在這里的想法是，保留basis的高頻分量，但將低頻分量設(shè)置為恒定值（比如0）。

而通過明智地選擇截止值a，模型就可以在微調(diào)期間（由于正弦函數(shù)和正弦函數(shù)的周期性）經(jīng)歷上下文長(zhǎng)度中的所有basis值，從而更好地外推到更大的上下文長(zhǎng)度。

接下來，便是對(duì)以上這些方法進(jìn)行徹底測(cè)試。

在此，作者認(rèn)為，很多人只用困惑度來衡量模型的長(zhǎng)下文能力是遠(yuǎn)遠(yuǎn)不夠的，因?yàn)樗募?xì)粒度不夠。

為此，除了困惑度，他們還加了三個(gè)新的評(píng)估任務(wù)（都已公開發(fā)布到HuggingFace之上）：

FreeFormQA、AlteredNumericQA和LongChat Lines，其中前兩個(gè)是一類，為問答任務(wù)，第三個(gè)為關(guān)鍵值檢索任務(wù)。

通過使用這兩種類型的任務(wù)，我們能夠強(qiáng)制要求模型更加關(guān)注完整的上下文，從而獲得高精度的測(cè)試結(jié)果。

那么結(jié)果如何？

直接上結(jié)論：

首先，線性插值是最好的上下文長(zhǎng)度外推方法。

其次，所有上下文長(zhǎng)度外推方法都隨著長(zhǎng)度的增加，在任務(wù)準(zhǔn)確性上出現(xiàn)了下降。

第三，通過在評(píng)估階段使用比微調(diào)時(shí)更高的比例因子，可以進(jìn)一步增加上下文長(zhǎng)度，但比例因子似乎最多只能提高2倍。

以下是這些方法在三個(gè)評(píng)估數(shù)據(jù)集上的具體表現(xiàn)（精度為1.0表示性能完美，0.0表示每次評(píng)估都是錯(cuò)誤的）：

△ LongChat Lines

△ AlteredNumericQA和FreeFormQA

可以看到，除了佐證上面的結(jié)論，作者們新提出的Truncated Basis方法表現(xiàn)確實(shí)不錯(cuò)，有一定的前景。

而基于以上研究，團(tuán)隊(duì)也在LLaMA2-13B基礎(chǔ)模型上發(fā)布了長(zhǎng)頸鹿大模型，當(dāng)然，用的是性能最優(yōu)的線性插值法。

根據(jù)上下文長(zhǎng)度不同，長(zhǎng)勁鹿家族最終一共有三個(gè)版本：4k、16k和32k，感興趣的朋友就可以去HuggingFace上下載了。

其實(shí)是并列第一

雖然Abacus.AI號(hào)稱長(zhǎng)頸鹿是世界首個(gè)上下文可達(dá)32k的開源LLM，但Together.AI其實(shí)更為搶先一步：

他們已在本月初發(fā)布了32k的Llama-2-7B大模型（已有近1萬7千次下載），以及在上周五發(fā)布了llama-2-7b-32k-instruct。

大家的上下文長(zhǎng)度一樣，唯一的大區(qū)別是Together.AI的參數(shù)規(guī)模要小些。

現(xiàn)在，大伙也好奇能不能出一個(gè)對(duì)比，看看究竟誰更勝一籌。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴