作者?|?郝博陽(yáng) 郭曉靜
?導(dǎo)語(yǔ):kimi爆火背后的大模型長(zhǎng)文本能力,有哪些技術(shù)難點(diǎn)?是否能形成護(hù)城河?未來(lái)的發(fā)展?jié)摿τ卸啻螅?? Kimi火了…… ? 這是這波AI浪潮中,國(guó)內(nèi)創(chuàng)業(yè)公司第一次真正“破圈”。最明顯的標(biāo)志是,在二級(jí)市場(chǎng)中,Kimi已被市場(chǎng)作為一個(gè)概念板塊來(lái)對(duì)待,它們被稱之為“Kimi概念股”。在之前爆炒的板塊中,可能有華為產(chǎn)業(yè)鏈、蘋(píng)果產(chǎn)業(yè)鏈,但是,因?yàn)橐患覄?chuàng)業(yè)公司而發(fā)酵一波行情還是第一次。 ? 除了資本市場(chǎng)的關(guān)注,實(shí)際的用戶量飆升,也能看出kimi的火爆程度。在“AI產(chǎn)品榜(aicpb.com)”統(tǒng)計(jì)的數(shù)據(jù)顯示,Kimi智能助手在2024年2月的訪問(wèn)量達(dá)305萬(wàn),較上個(gè)月增長(zhǎng)107.6%,幾乎成倍增長(zhǎng)。
據(jù)第三方機(jī)構(gòu)的最新統(tǒng)計(jì)數(shù)據(jù)顯示,目前國(guó)內(nèi)已經(jīng)發(fā)布的大型語(yǔ)言模型數(shù)量已經(jīng)超過(guò)了300個(gè)。這些大型模型的發(fā)布主體涵蓋了科技巨頭、國(guó)內(nèi)頂尖的高等學(xué)府、以及各類科研機(jī)構(gòu),他們?cè)谫Y金投入、資源配置、人才聚集等方面都擁有絕對(duì)的優(yōu)勢(shì)。
然而,在這樣一個(gè)競(jìng)爭(zhēng)激烈的環(huán)境中,為什么月之暗面這樣一個(gè)成立僅僅一年的創(chuàng)業(yè)公司會(huì)引起最大的關(guān)注?
“起爆點(diǎn)”始于3月18日,月之暗面宣布在大模型長(zhǎng)上下文窗口技術(shù)上取得新的突破,其自研的Kimi智能助手已支持200萬(wàn)字超長(zhǎng)無(wú)損上下文,并于今日開(kāi)啟產(chǎn)品內(nèi)測(cè)。
kimi上線的時(shí)間是2023年10月,當(dāng)時(shí)可以支持無(wú)損上下文長(zhǎng)度最多為20萬(wàn)漢字。在5個(gè)月的時(shí)間內(nèi),月之暗面直接將長(zhǎng)文本能力提高10倍。按照AI領(lǐng)域的計(jì)算標(biāo)準(zhǔn),200萬(wàn)漢字的長(zhǎng)度大約為400萬(wàn)token。
這種能力在全球知名大模型中的水平如何?下圖可以比較明顯看出,長(zhǎng)文本能力最強(qiáng)的谷歌gemini 1.5、Claude3支持100萬(wàn)token,kimi 200萬(wàn)漢字上下文長(zhǎng)度或已超越海外頂尖大模型水平。
但是,大模型僅僅某項(xiàng)能力的領(lǐng)先,似乎并不足以吸引所有的注意力,畢竟幾乎所有大模型在發(fā)布的時(shí)候,都會(huì)交出一個(gè)優(yōu)秀的基準(zhǔn)測(cè)試成績(jī)單,幾乎所有大模型,都是“一位超越上一個(gè)被發(fā)布的模型”的優(yōu)等生。
大模型的痛點(diǎn):同質(zhì)化嚴(yán)重
所以,在這樣“卷”的大模型市場(chǎng),kimi究竟為什么會(huì)火?其實(shí)它的火爆,也從側(cè)面反應(yīng)了大模型市場(chǎng)的痛點(diǎn),過(guò)去一年,市場(chǎng)見(jiàn)到了太多大模型的發(fā)布,每次標(biāo)準(zhǔn)動(dòng)作有以下幾個(gè):
1、公布模型參數(shù)量;
2、公布模型是開(kāi)源還是閉源;
3、公布測(cè)試集的成績(jī)(這些測(cè)試集被用于評(píng)估大模型在不同領(lǐng)域的能力,包括語(yǔ)言理解、知識(shí)問(wèn)答、文本創(chuàng)作等。通過(guò)這些測(cè)試集,研究人員和開(kāi)發(fā)者可以比較不同模型的性能,并識(shí)別模型的優(yōu)勢(shì)和不足,具體測(cè)試集的測(cè)試功能,如下圖所示)。
4、行業(yè)內(nèi)人士或極客們的評(píng)測(cè)文章。
一番標(biāo)準(zhǔn)動(dòng)作之后,對(duì)于非行業(yè)用戶,面對(duì)一些晦澀難懂的參數(shù)及技術(shù)詞語(yǔ),很難記住任何一個(gè)大模型有任何突出的特點(diǎn)。再加上國(guó)內(nèi)大模型對(duì)C端開(kāi)放的不多,且即使開(kāi)放,對(duì)C端開(kāi)放的也為比較基礎(chǔ)的版本。
用戶對(duì)國(guó)產(chǎn)大模型的印象,基本停留在類似于ChatGPT的聊天機(jī)器人??梢試L鮮,但是并不知道大模型對(duì)我“實(shí)際能有什么用”。
于是大模型的宣發(fā)也進(jìn)入了大眾看來(lái)的行業(yè)內(nèi)的自High——“看不懂有多牛,體驗(yàn)不到有什么用。”
懂營(yíng)銷的大模型公司
kimi選擇了一個(gè)更有辨識(shí)度的方式亮相。2023年10月10日,月之暗面的官方公眾號(hào)發(fā)布kimi的上線官宣文章,標(biāo)題中別有心裁地用了“歡迎與Moonshot AI共同開(kāi)啟Looooooooooong LLM時(shí)代”,"long"這個(gè)單詞中間,特地敲入了十個(gè)“o",long一下子變得視覺(jué)可見(jiàn)的長(zhǎng)。
而公眾號(hào)的第一句就是“今天,Moonshot AI帶著首個(gè)支持輸入20萬(wàn)漢字的智能助手產(chǎn)品Kimi Chat與大家見(jiàn)面了”。
所有的宣發(fā)內(nèi)容,用戶一眼就能記住一個(gè)詞“長(zhǎng)文本”。月之暗面是懂營(yíng)銷的,直接占領(lǐng)用戶心智。從此,用戶看到“長(zhǎng)文本”,只能想到“月之暗面”。
月之暗面的目標(biāo)是C端,為了讓C端用戶能夠理解“長(zhǎng)文本”這個(gè)技術(shù)名詞,楊植麟用了更形象的比喻“支持更長(zhǎng)的上下文”意味著大模型擁有更大的“內(nèi)存”。
這個(gè)世界已經(jīng)被計(jì)算機(jī)、手機(jī)教育過(guò)了,每個(gè)普通人都有一個(gè)“簡(jiǎn)單粗暴”的認(rèn)知,“內(nèi)存大”就意味著這個(gè)手機(jī)或電腦配置更高、性能更牛、價(jià)格也更貴。
一波漂亮的宣傳,在“卷評(píng)測(cè)分?jǐn)?shù)”的大模型界輕松地贏得了普通用戶的心。
在后續(xù)的重要宣發(fā)中,月之暗面不斷重復(fù)kimi的長(zhǎng)文本能力,創(chuàng)始人楊植麟也在采訪中強(qiáng)調(diào)“為什么長(zhǎng)文本是登月第一步?它很本質(zhì)。它是新的計(jì)算機(jī)內(nèi)存?!?/p>
早在20世紀(jì)60年代,艾·里斯與杰克·特勞特就提出了經(jīng)典的《定位》理論,它的核心概念在于將品牌建設(shè)的焦點(diǎn)從產(chǎn)品本身轉(zhuǎn)移到潛在客戶的心理認(rèn)知上。
在定位理論中,占領(lǐng)用戶心智意味著在目標(biāo)消費(fèi)者心中為品牌或產(chǎn)品創(chuàng)造一個(gè)獨(dú)特、明確且吸引人的位置。這樣,當(dāng)消費(fèi)者考慮購(gòu)買(mǎi)某一類產(chǎn)品或服務(wù)時(shí),你的品牌能夠成為他們首先想到的選擇。
當(dāng)用戶認(rèn)為在國(guó)內(nèi)的大模型中,長(zhǎng)文本=kimi的時(shí)候,除非競(jìng)爭(zhēng)對(duì)手能以絕對(duì)的實(shí)力碾壓幾個(gè)量級(jí),但凡與kimi打平或者是微弱超越,都很難威脅到kimi在用戶心目中的地位。
即使是如百度、阿里等科技大廠也宣布開(kāi)放長(zhǎng)文本能力,似乎也絲毫沒(méi)有影響到kimi的熱度。
而且,kimi只有一個(gè),在資本市場(chǎng)上,可以享受泡沫,但是當(dāng)退潮的時(shí)候,還是要保持一分清醒。
長(zhǎng)文本為何重要?
從營(yíng)銷策略拉回技術(shù)本質(zhì),kimi選擇堅(jiān)決攻克的大模型長(zhǎng)文本能力,究竟有多重要?月之暗面創(chuàng)始人楊植麟把它解讀為“新計(jì)算范式”,通用的世界模型,是需要long context的(長(zhǎng)文本)的。
如何理解這句話?如果你把大模型當(dāng)成一個(gè)和你對(duì)話的人,可以想象他和我們一樣有短期記憶和長(zhǎng)期記憶。長(zhǎng)期記憶就是那些在大模型里的通過(guò)訓(xùn)練得到的向量和參數(shù),你可以理解為這是它自身的知識(shí)庫(kù)。
而上下文就是短期記憶,當(dāng)你想和他交流的時(shí)候,這些不在長(zhǎng)期記憶中的新內(nèi)容,乃至你們對(duì)話的全部過(guò)程必須以上下文為窗口提供給大模型,超過(guò)其上下文承載能力的部分,大模型就會(huì)忘掉。
GPT3.5-Turbo初版上下文窗口長(zhǎng)度僅有4k token,也就是大概2000字,你和它對(duì)答超過(guò)兩千字的內(nèi)容它就基本記不住了,更別提讓他記住復(fù)雜的文件了。在這種上下文環(huán)境中,可以說(shuō)很難讓LLM完成真正復(fù)雜,多步的操作,也無(wú)法處理文檔等長(zhǎng)格式。
為了讓大模型能夠做更多事,拓展上下文就成了各路大模型爭(zhēng)相競(jìng)爭(zhēng)的一個(gè)重要目標(biāo)。
作為OpenAI被公認(rèn)的最強(qiáng)大對(duì)手,Antropic的大模型Claude的殺手锏就是長(zhǎng)文本,其初代模型就支持100k token的上下文,直接可以處理5萬(wàn)字,使得不那么長(zhǎng)的閱讀分析任務(wù)足以在上下文限制中完成。這也使它一直在整體性能劣于OpenAI的情況下,總是能保有一群核心粉絲。
同時(shí),長(zhǎng)文本也能促進(jìn)大模型基礎(chǔ)能力的提升,前四個(gè)能力是大模型功能優(yōu)化和拓展方面的,通過(guò)長(zhǎng)文本去實(shí)現(xiàn)過(guò)去難以支持的功能,或增強(qiáng)過(guò)去支持很差的功能:
①?更好地理解文檔。通過(guò)擴(kuò)展LLM的上下文窗口,模型可以更好地捕捉文檔中的長(zhǎng)距離依賴和全局信息,從而提高摘要、問(wèn)答等任務(wù)的性能。這是我們作為一般用戶最經(jīng)常要用的功能。
②?增強(qiáng)指代消解。更長(zhǎng)的上下文窗口可以幫助模型更好地確定代詞所指代的實(shí)體,從而提高指代消解的準(zhǔn)確性。也就是說(shuō)模型不會(huì)忘掉或搞混你們前面提到的“那個(gè)男人”,“那份文檔”。
③?改進(jìn)機(jī)器翻譯。擴(kuò)展上下文有助于更好地保留原文的語(yǔ)義,尤其是在專業(yè)術(shù)語(yǔ)、歧義詞等方面,提高翻譯質(zhì)量。
④?增強(qiáng)few-shot學(xué)習(xí)能力。通過(guò)在擴(kuò)展上下文中提供更多示例,LLM可以更好地進(jìn)行few-shot學(xué)習(xí),提高在新任務(wù)上的泛化能力。如今隨著模型命令跟隨的能力逐步增強(qiáng),很多時(shí)候直接通過(guò)Prompt指令就可以讓模型學(xué)到新的能力,比如做個(gè)英語(yǔ)教師,當(dāng)個(gè)醫(yī)生之類的。但這些功能描述會(huì)非常復(fù)雜,還需要舉出例子幫助模型學(xué)習(xí),長(zhǎng)文本支持越好,在Prompt指令中能添加的例子就越多,模型就會(huì)學(xué)的越好。
另兩項(xiàng)則是對(duì)模型基礎(chǔ)功能的提升,因?yàn)楝F(xiàn)在的上下文增加模式除了RAG(檢索增強(qiáng)生成)等引入外部存儲(chǔ)的模式外,內(nèi)生上下文提升都需要更改Transformer模型本身。
因此在這個(gè)過(guò)程中模型的能力也會(huì)得到相應(yīng)的提升,簡(jiǎn)單來(lái)說(shuō)就是傳統(tǒng)Transformer模型根本理解不了文本間隔比較遠(yuǎn)的內(nèi)容間的聯(lián)系,現(xiàn)在它能了,理解能力也就自然提升了。
①?提升大模型的語(yǔ)言理解和生成能力。更長(zhǎng)的上下文有助于LLM更好地理解多輪對(duì)話、復(fù)雜文本中的語(yǔ)義,并生成更連貫、相關(guān)的響應(yīng)。這對(duì)于對(duì)話系統(tǒng)、文本生成等應(yīng)用很重要。
②?提高長(zhǎng)文本推理和QA能力。擴(kuò)展上下文使LLM能更好地處理涉及多文檔、長(zhǎng)文本的推理和QA任務(wù)。
在去年GPT4-Turbo還沒(méi)有推出上下文長(zhǎng)度128k版本的時(shí)候,OpenAI的開(kāi)發(fā)者關(guān)系經(jīng)理Logan Kilpatrick就曾經(jīng)表示過(guò),“上下文就是大語(yǔ)言模型的下一個(gè)關(guān)鍵突破”。從大語(yǔ)言模型的功能滿足上看,也確實(shí)如此。
目前使用大語(yǔ)言模型的大多數(shù)人群,還是泛科技行業(yè),有嘗鮮能力的從業(yè)者、愛(ài)好者以及相關(guān)專業(yè)的學(xué)生,長(zhǎng)文本處理能力毫無(wú)疑問(wèn)是論文、深度研報(bào)、會(huì)議摘要這些有明確應(yīng)用場(chǎng)景的剛需能力。月之暗面的登月第一步,從用戶需求角度講肯定是邁對(duì)了。
但這一步,從技術(shù)角度來(lái)講,真的能領(lǐng)先多少?
上下文長(zhǎng)度真的能形成護(hù)城河嗎?
如文章開(kāi)頭所述,在占領(lǐng)心智方面,Kimi已經(jīng)形成了暫時(shí)的用戶護(hù)城河,這其中“長(zhǎng)文本”是一個(gè)重要的因素,但不是全部因素。
它能否像去年的Claude 一樣,憑借著上下文長(zhǎng)度形成一條穩(wěn)定的護(hù)城河?在去年,這個(gè)答案也許是肯定的,但進(jìn)入2024年,這項(xiàng)技術(shù)本身已經(jīng)很難說(shuō)的上是護(hù)城河了。當(dāng)下,已經(jīng)有越來(lái)越多成熟的手段去處理上下文的問(wèn)題。
上下文擴(kuò)展的問(wèn)題之所以這么難解決,主要原因還是Transformer這個(gè)基礎(chǔ)框架本身。
它最核心的問(wèn)題有三個(gè):
1)對(duì)文本長(zhǎng)度記憶非常死板,超過(guò)訓(xùn)練集最大長(zhǎng)度就無(wú)法處理:Transformer為輸入序列的每個(gè)token的位置都映射了一個(gè)固定長(zhǎng)度的向量。
這是一個(gè)絕對(duì)的位置信息,導(dǎo)致模型對(duì)文本長(zhǎng)度的記憶非常死板。一旦你給了模型超出訓(xùn)練集最大長(zhǎng)度的信息時(shí),這些超出的位置他就定位不了,也就讀取和理解不了。
很可惜的是,根據(jù)Sevice Now的研究員Harm de Vries的技術(shù)博客分析,現(xiàn)在模型訓(xùn)練用的主要素材之一公開(kāi)可用的互聯(lián)網(wǎng)抓取數(shù)據(jù)集CommonCrawl中,95%以上的語(yǔ)料數(shù)據(jù)文件的token數(shù)少于2k,并且實(shí)際上其中絕大多數(shù)的區(qū)間在1k以下。
也就是說(shuō),它在訓(xùn)練這個(gè)過(guò)程中就是很難拓展到2k以上的文本長(zhǎng)度。
2)注意力機(jī)制占據(jù)資源,耗費(fèi)算力:因?yàn)樽宰⒁饬C(jī)制需要計(jì)算每個(gè)token與其他所有token之間的相對(duì)注意力權(quán)重,所以token越長(zhǎng),計(jì)算量就越大,耗時(shí)越長(zhǎng)。
而且算出來(lái)的結(jié)果,還要儲(chǔ)存成注意力得分矩陣,大量矩陣會(huì)占據(jù)巨大的存儲(chǔ)空間,快速存儲(chǔ)能力不足也不行。而且大部分 token之間其實(shí)就沒(méi)啥關(guān)系,非要這么來(lái)回算一遍純粹浪費(fèi)資源。
3)不擅長(zhǎng)處理遠(yuǎn)端信息:深度學(xué)習(xí)的基本邏輯之一是梯度下降,它通過(guò)不斷地調(diào)整模型參數(shù)來(lái)最小化與結(jié)果差異的損失函數(shù),從而使模型的預(yù)測(cè)能力得到提高。另一個(gè)邏輯就是反向傳播,將梯度傳播到更高的神經(jīng)網(wǎng)絡(luò)層級(jí)中,從而使模型能識(shí)別更復(fù)雜的模式和特征。
當(dāng)序列較長(zhǎng)時(shí),梯度在反向傳播過(guò)程中可能變得非常小(梯度消失)或非常大(梯度爆炸),這導(dǎo)致模型無(wú)法學(xué)習(xí)到長(zhǎng)距離的依賴關(guān)系。而且注意力機(jī)制本身就傾向于近距離詞匯,遠(yuǎn)距離依賴關(guān)系對(duì)它來(lái)說(shuō)優(yōu)先級(jí)不高。
這三大難題其實(shí)已經(jīng)有非常多的手段去規(guī)避。學(xué)界把增加上下文的方法主要?dú)w類為外推(Extrapolation)和內(nèi)插(Interpolation)。一般都會(huì)并行使用。
外推負(fù)責(zé)解決訓(xùn)練外資料無(wú)法編碼的問(wèn)題,并保證長(zhǎng)文本處理的能力。用通俗的語(yǔ)言來(lái)解釋我們有一個(gè)巨大的語(yǔ)言模型,就像一個(gè)超級(jí)大腦,它通過(guò)閱讀大量的書(shū)籍和文章來(lái)學(xué)習(xí)理解人類的語(yǔ)言和知識(shí)。
但是,如果給它一段新的長(zhǎng)文本,它可能會(huì)遇到一些之前沒(méi)有接觸過(guò)的內(nèi)容,這時(shí)候它就需要一種特殊的能力來(lái)理解這些新信息。這種能力就是所謂的“外推”。
為了讓這個(gè)語(yǔ)言模型能夠處理超長(zhǎng)的文章,我們需要給它一種特殊的編碼方式,就像給這個(gè)超級(jí)大腦安裝了一副可以看得更遠(yuǎn)的眼鏡。這副眼鏡就是“位置編碼”,比如ALiBi和RoPE這樣的編碼方式,它們幫助語(yǔ)言模型理解更長(zhǎng)的文本。
但是,長(zhǎng)文本不僅長(zhǎng),還很復(fù)雜,需要語(yǔ)言模型快速而且準(zhǔn)確地理解。為了解決這個(gè)問(wèn)題,我們發(fā)明了一種叫做“稀疏注意力”的技術(shù),它就像是給這個(gè)超級(jí)大腦裝了一個(gè)高效的信息處理系統(tǒng),讓它可以快速聚焦在重要的信息上,而不是被無(wú)關(guān)的細(xì)節(jié)分散注意力。
還有一個(gè)問(wèn)題,就是語(yǔ)言模型的“記憶”問(wèn)題。就像電腦如果開(kāi)太多程序會(huì)卡頓一樣,語(yǔ)言模型處理太多信息也會(huì)遇到問(wèn)題。這時(shí)候,我們有了像Transformer-XL這樣的技術(shù),它就像是給語(yǔ)言模型加了一個(gè)超級(jí)大的內(nèi)存,讓它可以記住更多的東西。
而環(huán)注意力(Ring Attention)這個(gè)新技術(shù),就像是給語(yǔ)言模型的大腦做了一個(gè)升級(jí),讓它在處理信息的時(shí)候更加高效,不會(huì)忘記重要的事情。
除了處理長(zhǎng)文本,我們還需要讓語(yǔ)言模型能夠更好地理解它已經(jīng)學(xué)過(guò)的內(nèi)容,這就是“內(nèi)插”。我們通過(guò)調(diào)整它的注意力機(jī)制,讓它可以更輕松地找到信息之間的聯(lián)系,就像是給這個(gè)超級(jí)大腦裝了一個(gè)更聰明的搜索系統(tǒng)。
通過(guò)這些技術(shù)的提升,我們的語(yǔ)言模型變得越來(lái)越強(qiáng)大,雖然還不是完美無(wú)缺,但已經(jīng)能夠處理很多復(fù)雜的問(wèn)題了。
最近,微軟的研究人員還發(fā)明了一種新的方法,叫做LongRoPE,它就像是給這個(gè)超級(jí)大腦的超能力做了一個(gè)升級(jí),讓它可以處理更多的信息,而且不需要重新訓(xùn)練或者更多的硬件支持。
本身這個(gè)方法略微復(fù)雜,會(huì)使用到1000步微調(diào),但效果絕對(duì)值得這么大費(fèi)周章。直接連重新訓(xùn)練和額外的硬件支持都不需要就可以把上下文窗口拓展到200萬(wàn)水平。
從學(xué)術(shù)的角度看,上下文似乎已經(jīng)有了較為明確的突破路徑。而業(yè)界頭部公司模型的進(jìn)化也說(shuō)明了這一點(diǎn)。
看全球:頭部大模型的長(zhǎng)文本護(hù)城河已經(jīng)“變淺”
早在Kimi引發(fā)國(guó)內(nèi)大模型“長(zhǎng)文本馬拉松競(jìng)賽”的4個(gè)月前,美國(guó)大模型界就已經(jīng)賽過(guò)一輪了。參賽的兩名選手是OpenAI的GPT4-Turbo和Antrophric的Claude。
在去年11月,OpenAI在Dev Day上發(fā)布了GPT4-Turbo, 最高支持128k上下文長(zhǎng)度的輸入,這一下打到了Claude的命門(mén)。在能力全面落后GPT4的基礎(chǔ)上,唯一的優(yōu)勢(shì)也被超越,Antrophric頓時(shí)陷入了危機(jī)。
在14天后,Antrophric緊急發(fā)布Claude 2.1,在其他能力沒(méi)有顯著增強(qiáng)的情況下,僅把上下文支持從100k提升到了200k來(lái)應(yīng)對(duì)挑戰(zhàn)。而在今年2月發(fā)布的Geminni 1.5更是直接把上下文窗口推到了100萬(wàn)的水位,這基本上是哈利波特全集的長(zhǎng)度和1小時(shí)視頻的量級(jí)。
這說(shuō)明全球第一梯隊(duì)的三個(gè)大模型,在去年都突破了長(zhǎng)文本的限制。
這其中還有一個(gè)小插曲,Claude 2.1發(fā)布后,完全沒(méi)想到行業(yè)人士這么快就對(duì)它進(jìn)行了探針測(cè)試,可以用簡(jiǎn)單的概念來(lái)理解,就是大海撈針。
探針測(cè)試的邏輯是向長(zhǎng)文章的不同位置中注入一些和文章完全不相關(guān)的話語(yǔ),看它能不能找出來(lái)。能就說(shuō)明它真的懂了,不能就說(shuō)明它只是支持了這樣的長(zhǎng)度,但并沒(méi)有記住。
Claude 2.1探針綜合召回率只有20%,可以說(shuō)基本沒(méi)記住,而對(duì)比GPT4 Turbo放出的論文中,128k長(zhǎng)文本的召回率足有97%。
在這場(chǎng)公關(guān)戰(zhàn)中落于下風(fēng)的Claude緊急打了補(bǔ)丁,在12月6日放出更新,探針召回率大幅提升,而且按Antrophic官方的說(shuō)法,他們只是加了個(gè)Prompt就解決了這個(gè)問(wèn)題。
官方文檔:通過(guò)在克勞德的回答開(kāi)頭添加“這是上下文中最相關(guān)的句子:”這句話,我們?cè)谙嗤脑u(píng)估中取得了明顯更好的結(jié)果。
探針實(shí)驗(yàn)效果效果前后對(duì)比
一個(gè)Prompt就能解決上下文拓展中出現(xiàn)的嚴(yán)重問(wèn)題。如果不是Claude 本身在故意隱藏底牌,只能說(shuō)到了12月份,這個(gè)護(hù)城河已經(jīng)略淺了。
而到了3月份,中文大模型的這場(chǎng)最新版本的長(zhǎng)文本戰(zhàn)爭(zhēng)時(shí),其他廠商的快速跟上,更為“護(hù)城河略淺”加了些注腳。
上下文長(zhǎng)度是100萬(wàn)或是200萬(wàn),
有本質(zhì)意義嗎?
但是,全球三大模型的長(zhǎng)文本之戰(zhàn)最終“高開(kāi)低走”。
GPT4-Turbo 128k直到今天仍然僅對(duì)API用戶(主要是專業(yè)開(kāi)發(fā)者及公司)開(kāi)放,一般用戶只能用32 k的GPT4版本。
在今年3月發(fā)布的號(hào)稱超越GPT4的Claude 3依然只支持到200K的上下文限制。
突然他們都不卷了。這是為什么?
首先是因?yàn)椴粍澦?/strong>
在上文提及注意力機(jī)制的時(shí)候,我們講到因?yàn)槠鋬?nèi)生的運(yùn)作邏輯,上下文越長(zhǎng)需要計(jì)算的量級(jí)越大。上下文增加32倍時(shí),計(jì)算量實(shí)際會(huì)增長(zhǎng)大約1000倍。雖然靠著稀疏注意力等減負(fù)措施,時(shí)機(jī)運(yùn)算量并沒(méi)有那么巨大,但對(duì)模型來(lái)講依然是非常大的負(fù)擔(dān)。
這從大模型的反應(yīng)時(shí)間可以一窺:根據(jù)目前的測(cè)試反饋,Gemini在回答36萬(wàn)個(gè)上下文時(shí)需要約30秒,并且查詢時(shí)間隨著token數(shù)量呈非線性上升。
而當(dāng)在Claude 3 Opus中使用較長(zhǎng)文本的上下文時(shí),反應(yīng)時(shí)間也會(huì)加長(zhǎng)。其間Claude還會(huì)彈出提示,表示在長(zhǎng)上下文的情況下,應(yīng)答時(shí)間會(huì)顯著變長(zhǎng),希望你耐心等待。
較大的計(jì)算量就意味著大量的算力和相應(yīng)的成本。
GPT-4 128k版本之所以開(kāi)放給API用戶,是因?yàn)樗麄儼摧斎雝oken數(shù)量結(jié)算,自己承擔(dān)這部分算力成本。對(duì)于20美元一個(gè)月的一般用戶而言,這個(gè)并不劃算。Claude 3會(huì)員版本最近也開(kāi)始限制同一時(shí)間段內(nèi)的輸入次數(shù),預(yù)計(jì)也是在成本上有所承壓。
雖然未來(lái)算力和模型速度都會(huì)變得越來(lái)越快,成本和用戶體感都會(huì)進(jìn)一步上升。但現(xiàn)在,如果長(zhǎng)上下文的需求能夠在當(dāng)下支持框架下獲得滿足,大模型提供商何必“再卷一步”呢?
其次,長(zhǎng)上下文的擴(kuò)充在一定限度以后對(duì)模型整體能力的提升有限
前文提到,上下文對(duì)模型能力會(huì)有一定提升,尤其是處理長(zhǎng)內(nèi)容的連貫?zāi)芰屯评砟芰ι嫌兴嵘?。在早期谷歌進(jìn)行的較弱模型實(shí)驗(yàn)中,我們確實(shí)可以看到這樣的明顯正向關(guān)系。
但我們現(xiàn)在評(píng)價(jià)模型的角度實(shí)際上更綜合,核心還是希望它能有更好的常識(shí)能力和推理能力。GPT4一直都不是支持上下文長(zhǎng)度最長(zhǎng)的模型,但其綜合能力一直一騎絕塵了半年多時(shí)間。當(dāng)上下文夠用后,把時(shí)間花在優(yōu)化模型的其他方面似乎更為合理。
在Langchain最近的研究中,他們?cè)O(shè)置了多個(gè)探針后發(fā)現(xiàn),即使是支持長(zhǎng)上下文的模型,在探針越多的情況下,其正確召回率仍然會(huì)衰退,而且對(duì)探針的推理能力衰退的更明顯。所以,當(dāng)前的方法下大模型可能能記住很長(zhǎng)上下文,但懂多少,能用多少還是存疑的。
最后,有更便宜的,更有拓展性的解決方法,為什么死磕這條路?
在楊植麟過(guò)往的采訪中,他曾經(jīng)指出一種拓展上下文的模式是蜜蜂模式,屬于一種走捷徑的模式,不能真正的影響到模型的能力。這種模式就是RAG,也就是檢索增強(qiáng)生成(RAG)。
其基本邏輯就是在模型外部設(shè)置一個(gè)存儲(chǔ)器,通過(guò)切片方法將我們輸入給模型的長(zhǎng)文本切成模型有能力識(shí)別的短文本小塊,在取用時(shí)通過(guò)索引讓大模型找到具體的分塊。它和蜂巢一樣一塊塊的所以被稱作蜜蜂模式。
通過(guò)RAG,大模型可以考僅處理索引涉及到的小段落就可以,所以反饋速度很快,也更便宜。但它的問(wèn)題正如楊植麟所說(shuō),因?yàn)槭欠謮K的,只能窺一斑難見(jiàn)長(zhǎng)文本的一豹。
GPT4用的就是這樣的模式,所以在32k的長(zhǎng)度下也可以接受更大的文本進(jìn)行閱讀,但問(wèn)題確實(shí)很多,它會(huì)經(jīng)常返回說(shuō)明明在文章里有的東西它找不到。
但這個(gè)問(wèn)題最近也被攻破了。今年2月發(fā)布BGE Landmark embedding的論文也闡述了一種利用長(zhǎng)上下文解決信息不完整檢索的方法。
通過(guò)引入無(wú)分塊的檢索方法,Landmark embedding能夠更好地保證上下文的連貫性,并通過(guò)在訓(xùn)練時(shí)引入位置感知函數(shù)來(lái)有限感知連續(xù)信息段中最后一個(gè)句子,保證嵌入依然具備與Sentence Embedding相近的細(xì)節(jié)。這種方法大幅提升了長(zhǎng)上下文RAG的精度。
另外,就像當(dāng)下的數(shù)據(jù)庫(kù)一樣,因?yàn)槲覀內(nèi)粘I罟ぷ髦姓嬲玫降纳舷挛牟粌H包含了長(zhǎng)文本、圖片等非結(jié)構(gòu)化數(shù)據(jù),更包含了復(fù)雜的結(jié)構(gòu)化數(shù)據(jù),比如時(shí)間序列數(shù)據(jù)、圖數(shù)據(jù)、代碼的變更歷史等等,處理這些數(shù)據(jù)依然需要足夠高效的數(shù)據(jù)結(jié)構(gòu)和檢索算法。
100萬(wàn)token這個(gè)上下文長(zhǎng)度,在文本,代碼為主的場(chǎng)景下,已經(jīng)足夠滿足99%我們當(dāng)下的上下文用例了。再卷,對(duì)用戶而言毫無(wú)價(jià)值。
當(dāng)然,因?yàn)榭匆粋€(gè)五分鐘的視頻可能就需要10萬(wàn)以上的token,在多模態(tài)模型實(shí)裝時(shí)代中,各個(gè)模型供應(yīng)商還是有再往上卷的理由。但在當(dāng)下的算力成本之下,它的大規(guī)模應(yīng)用應(yīng)該還很難。
終極目標(biāo)還是AGI
最后,引出一個(gè)終極問(wèn)題,靠”長(zhǎng)文本“是否能形成大模型真正的護(hù)城河?”護(hù)城河“本質(zhì)還是看未來(lái),而未來(lái)是最難判斷的。關(guān)于長(zhǎng)文本本身有多大可擴(kuò)展空間,楊植麟的回答是:“非常大。
一方面是本身窗口的提升,有很長(zhǎng)路要走,會(huì)有幾個(gè)數(shù)量級(jí)。另一方面是,你不能只提升窗口,不能只看數(shù)字,今天是幾百萬(wàn)還是多少億的窗口沒(méi)有意義。
你要看它在這個(gè)窗口下能實(shí)現(xiàn)的推理能力、the faithfulness的能力(對(duì)原始信息的忠實(shí)度)、the instruction following的能力(遵循指令的能力)——不應(yīng)該只追求單一指標(biāo),而是結(jié)合指標(biāo)和能力?!?/p>
如果這兩個(gè)維度持續(xù)提升,人類下達(dá)一個(gè)幾萬(wàn)字、幾十萬(wàn)字的復(fù)雜指令,大模型都能很好地、準(zhǔn)確地執(zhí)行,這確實(shí)是巨大的想象空間。到了那個(gè)時(shí)候,可能沒(méi)有人會(huì)糾結(jié),這家公司的核心競(jìng)爭(zhēng)力究竟是長(zhǎng)文本,還是別的什么。
這波AI浪潮才剛剛開(kāi)始,未來(lái)的產(chǎn)品形態(tài)肯定是與今天完全不同的,我們還沒(méi)有辦法清晰地看到它未來(lái)的樣子。但是似乎有一點(diǎn)是行業(yè)內(nèi)的共識(shí),屬于AI時(shí)代的產(chǎn)品,一定是“去掉AI就不成立”的產(chǎn)品。
楊植麟也有相似的判斷“獨(dú)特價(jià)值是你增量的智能。要抓住這個(gè)點(diǎn),智能永遠(yuǎn)是最核心的增量?jī)r(jià)值。如果你這個(gè)產(chǎn)品最核心價(jià)值只有10%-20%來(lái)自于AI,就不成立”。
未來(lái),你需要人工智能,它一定能理解你的長(zhǎng)長(zhǎng)的指令,但是它可能會(huì)忘記,在一路走來(lái)的過(guò)程中,還曾經(jīng)路過(guò)叫做“長(zhǎng)文本”的驛站。
審核編輯:黃飛
?
評(píng)論