一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

2023年大語言模型(LLM)全面調(diào)研:原理、進(jìn)展、領(lǐng)跑者、挑戰(zhàn)、趨勢(shì)

深度學(xué)習(xí)自然語言處理 ? 來源:旺知識(shí) ? 2024-01-03 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在數(shù)據(jù)成為新石油的世界中,語言不再只是人類的專長(zhǎng)。數(shù)據(jù)在人工智能中被大量使用,并塑造了當(dāng)今最熱門的AI話題—大語言模型。隨著大語言模型的到來,人工智能現(xiàn)在正在學(xué)習(xí)交流、理解和生成類似人類的文本。


業(yè)界著名大語言模型(LLM),如OpenAI的GPT系列、Bloom、Bard、Bert、LaMDa、LLaMa等,都有自己的用戶群體。大語言模型正在徹底改變我們與技術(shù)互動(dòng)的方式,它們正在塑造一個(gè)與機(jī)器交流就像與朋友聊天一樣自然的未來。從生成創(chuàng)意內(nèi)容到協(xié)助高級(jí)研究,大型語言模型正在融入我們的日常生活。

在本文中,我們將探討大語言模型(LLM)是什么、它如何運(yùn)作、它為何受到關(guān)注,以及它如何塑造我們的未來。

1 - 什么是大語言模型(LLM)?


大型語言模型(LLM)是基于人工智能的先進(jìn)模型,經(jīng)過訓(xùn)練,它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學(xué)習(xí)技術(shù)和大量訓(xùn)練數(shù)據(jù)來全面理解語言結(jié)構(gòu)、語法、上下文和語義。我們?nèi)粘=换サ脑S多應(yīng)用程序(例如聊天機(jī)器人、AI搜索引擎、內(nèi)容生成工具等)的幕后運(yùn)行著GPT-3、GPT-4、LaMDA、BLOOM、LLaMA等著名大語言模型,LLM的出現(xiàn)徹底改變了自然語言處理任務(wù)。

但這對(duì)我們意味著什么?除了為我們的日常交互提供動(dòng)力之外,LLM還在改變行業(yè)、簡(jiǎn)化工作流程,甚至創(chuàng)造新的藝術(shù)內(nèi)容。它們開啟了令人興奮的可能性,并重新定義了我們對(duì)技術(shù)的期望。這場(chǎng)技術(shù)變化并不僅僅帶來更智能的小工具或更高效的軟件,而是可能塑造一個(gè)人類和機(jī)器可以像人類相互交流一樣進(jìn)行交流的未來。盡管看起來很科幻,但這種變革就真真切切正在發(fā)生。

2 -大型語言模型如何工作?


如果您正在閱讀本文,您可能至少使用過一種文本生成人工智能工具,例如ChatGPT。這些工具的工作原理是學(xué)習(xí)人類花費(fèi)數(shù)年時(shí)間創(chuàng)建的大量數(shù)據(jù)集。大語言模型一般需要學(xué)習(xí)TB的文本數(shù)據(jù),并且在學(xué)習(xí)過程中需要海量的計(jì)算資源。

所有這些大語言模型都基于Transformer工作。Transformer是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),它使計(jì)算機(jī)能夠通過分析文本中單詞和短語之間的關(guān)系來理解、解釋和生成人類語言。與以前按順序處理語言的模型不同,Transformer可以同時(shí)查看多個(gè)句子部分?,F(xiàn)在,為了讓這個(gè)想法更具有相關(guān)性:想象一下閱讀一本書并立即理解所有角色、情節(jié)曲折和情感,而不是逐字逐句地理解。Transformer對(duì)語言做了類似的事情,快速掌握文本背后的含義。這種獨(dú)特的語言處理方式使Transformer成為強(qiáng)大的計(jì)算機(jī)程序的基礎(chǔ),這些程序可以以人類的方式聊天、寫作和思考。

那么,之前的模型是什么?Transformers是如何“改變”LLM游戲并在自然語言處理領(lǐng)域獲得全面應(yīng)用的?Transformer架構(gòu)的內(nèi)部工作原理是什么?請(qǐng)繼續(xù)閱讀以找出答案。

2.1 - 編碼器-解碼器 (Encoder-decoders)

編碼器-解碼器(Encoder-decoders)架構(gòu)由Google和多倫多大學(xué)研究人員于1997年提出,是大語言模型的核心。它解決了序列到序列的任務(wù),例如機(jī)器翻譯、文本摘要和問答

至于機(jī)器翻譯,本質(zhì)上是這樣的:編碼器獲取一個(gè)句子,例如英語句子,并將其轉(zhuǎn)換為某種向量表示。該向量包含原始句子的所有基本信息。然后,解碼器接管,將這些向量翻譯成一種新語言,例如德語。為了確保我們充分想象這個(gè)過程,讓我們更詳細(xì)地了解編碼器-解碼器架構(gòu)中的機(jī)器翻譯階段。我們將把“The weather is nice today”這句話翻譯成德語“Das Wetter ist heute sch?n”。這里的編碼器-解碼器架構(gòu)有五個(gè)主要組件:

ba410cc6-a97e-11ee-8b88-92fbcf53809c.png

編碼器-解碼器。圖源:superannotate.com

輸入嵌入:英語句子“The weather is nice today”中的每個(gè)單詞通過嵌入層轉(zhuǎn)換為唯一的向量。這些向量保存了單詞的上下文含義。

位置編碼:Transformer將位置編碼添加到這些向量中,幫助模型識(shí)別句子中的單詞序列。

編碼器:然后向量通過變壓器中的多個(gè)編碼器層。每個(gè)編碼器層由自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成。自注意力機(jī)制權(quán)衡上下文中每個(gè)單詞的重要性,前饋網(wǎng)絡(luò)修改單詞向量以使其與目標(biāo)表示對(duì)齊。

解碼器:編碼器的最終輸出(一組代表英語句子的向量)被饋送到解碼器。與編碼器非常相似,解碼器具有自注意力層和前饋網(wǎng)絡(luò)。解碼器中的額外注意力層關(guān)注編碼器的輸出向量,通知模型輸入句子的哪些部分在輸出生成的每個(gè)步驟中是重要的。

線性和softmax層:解碼器的輸出經(jīng)過線性層和softmax函數(shù)。這些生成目標(biāo)語言(德語)中預(yù)測(cè)的下一個(gè)單詞的概率分布。選擇概率最高的單詞,并且該過程不斷進(jìn)行,直到生成句末標(biāo)記。


在翻譯任務(wù)中,語言模型同時(shí)使用編碼器和解碼器組件。然而,這些組件也可以根據(jù)手頭的具體任務(wù)獨(dú)立運(yùn)行。例如,可以訓(xùn)練僅編碼器模型來處理分類自然語言處理任務(wù),例如情感分析或序列標(biāo)記。雙向編碼器表示(Bidirectional encoder representations,BERT)是純編碼器模型的典型示例。僅解碼器模型,如GPT模型系列、BLOOM、Jurassic和LLaMA,隨著它們的發(fā)展和擴(kuò)展也變得越來越流行和強(qiáng)大。在現(xiàn)代,這些模型在各種任務(wù)中表現(xiàn)出了令人印象深刻的性能。Bard或T5等模型同時(shí)使用編碼器和解碼器組件,并且精通摘要或釋義等序列轉(zhuǎn)換任務(wù)。

2.2 - 基于RNN的模型

2014年,Cho和蘇茨克韋爾等人提出了使用基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的編碼器-解碼器架構(gòu)來執(zhí)行序列到序列任務(wù)的想法。

在早期,RNN被用作編碼器和解碼器的構(gòu)建塊。編碼器RNN逐個(gè)處理輸入序列標(biāo)記,并在每一步更新其隱藏狀態(tài)。編碼器的最終隱藏狀態(tài)捕獲整個(gè)輸入序列的上下文信息。該隱藏狀態(tài)用作解碼器RNN的初始隱藏狀態(tài)。

然后解碼器RNN接管并逐步生成輸出序列。在每個(gè)時(shí)間步,解碼器RNN使用當(dāng)前輸入標(biāo)記、先前的隱藏狀態(tài)以及(可選)先前生成的輸出標(biāo)記來預(yù)測(cè)序列中的下一個(gè)標(biāo)記。此過程將持續(xù)進(jìn)行,直到生成序列結(jié)束令牌或達(dá)到預(yù)定義的最大長(zhǎng)度。

2.3 - Transformer之前的模型

正如我們提到的,在Transformer出現(xiàn)之前,編碼器-解碼器文本生成是通過RNN技術(shù)完成的,這有兩個(gè)主要缺點(diǎn)。

長(zhǎng)期依賴性:RNN與長(zhǎng)期依賴性作斗爭(zhēng),其中模型需要記住或使用序列中較早時(shí)間步驟的信息以用于后面的時(shí)間步驟。隨著序列變長(zhǎng),RNN維護(hù)這些依賴性的能力變得越來越差。這意味著捕獲句子中不同位置的單詞之間的關(guān)系對(duì)于RNN來說是一項(xiàng)挑戰(zhàn)。讓我們通過一個(gè)例句來理解。

“我覺得她有點(diǎn)不對(duì)勁……她看起來[]”

在基于RNN的系統(tǒng)中,當(dāng)模型到達(dá)“她看起來[]”部分時(shí),它可能會(huì)忘記句子的第一部分。它將查看前一個(gè)詞“看起來”,并對(duì)最合適的下一個(gè)詞(比如“很棒”)做出錯(cuò)誤判斷。

ba5232bc-a97e-11ee-8b88-92fbcf53809c.png


RNN輸出錯(cuò)誤結(jié)果。圖源:superannotate.com

我們很快就會(huì)看到如何通過Transformer模型解決這個(gè)問題。

順序邏輯:RNN一次一步地處理序列。這種計(jì)算的順序性質(zhì)使得并行化變得不可能,增加了訓(xùn)練時(shí)間并降低了處理大規(guī)模數(shù)據(jù)時(shí)的效率。

當(dāng)處理一個(gè)句子時(shí),RNN一個(gè)接一個(gè)地讀取單詞,就像連鎖反應(yīng)一樣。如果你有一個(gè)20個(gè)單詞的句子,第20個(gè)單詞必須等待前面19個(gè)單詞的計(jì)算。這種順序處理使得并行化變得不可能,從而導(dǎo)致訓(xùn)練過程更長(zhǎng)。

2.4 - Transformer模型

RNN模型少數(shù)但顯著的缺點(diǎn)催生了Transformer架構(gòu)。Transformers由Google研究人員于2017年誕生,他們通過引入自注意力機(jī)制徹底改變了LLM行業(yè)。谷歌和多倫多大學(xué)的研究人員發(fā)表的《Attention is All You Need》以及Transformer機(jī)制的誕生,標(biāo)志著現(xiàn)代大語言模型快速發(fā)展的開始。

ba5ad02a-a97e-11ee-8b88-92fbcf53809c.png


Attention is All You Need。圖源:https://arxiv.org/pdf/1706.03762.pdf

讓我們看看Transformer如何解決RNN面臨的問題:

1.注意力機(jī)制:Transformer架構(gòu)中的注意力機(jī)制可以學(xué)習(xí)關(guān)注它正在處理的單詞的含義。簡(jiǎn)單來說,注意力層計(jì)算序列中所有單詞對(duì)之間的注意力分?jǐn)?shù),這決定了每個(gè)單詞應(yīng)該關(guān)注其他單詞的程度。想象一下您正在閱讀一個(gè)復(fù)雜的句子。你自然會(huì)更關(guān)注某些單詞而不是其他單詞,以掌握整體含義。同樣,注意力機(jī)制允許LLM在生成響應(yīng)時(shí)專注于關(guān)鍵的輸入部分,從而使輸出更加準(zhǔn)確且與上下文相關(guān)。在這個(gè)例子中,Transformer模型可以直接將這個(gè)人感到悲傷的事實(shí)與之前有關(guān)她出了問題的信息聯(lián)系起來,無論這兩條信息之間的距離是長(zhǎng)還是短。

ba6bfd8c-a97e-11ee-8b88-92fbcf53809c.png


Transformer輸出正確結(jié)果。圖源:superannotate.com

2.并行化:與RNN不同,Transformer不會(huì)逐步處理序列。相反,它們同時(shí)處理序列中的所有標(biāo)記,從而允許并行計(jì)算。Transformer模型架構(gòu)引入了多核GPU的使用,它可以并行處理輸入數(shù)據(jù),從而利用更大的訓(xùn)練數(shù)據(jù)集。這解決了限制基于RNN的系統(tǒng)高效工作的時(shí)間和計(jì)算資源問題。在擴(kuò)展句示例中,轉(zhuǎn)換器同時(shí)處理所有20個(gè)單詞,從而實(shí)現(xiàn)并行計(jì)算。這種同時(shí)處理意味著我們的示例句子中的所有單詞都會(huì)同時(shí)分析,從而大大減少了處理時(shí)間。

2.5-Transformer模型生命周期

為了了解大型語言模型的工作原理,我們還需要了解Transformer模型所經(jīng)歷的階段。

ba7203d0-a97e-11ee-8b88-92fbcf53809c.png

Transformer模型生命周期。圖源:superannotate.com

1.一切開始時(shí),對(duì)項(xiàng)目需要有一個(gè)清晰的愿景。從一開始就定義范圍至關(guān)重要,因?yàn)樗苯佑绊懩P偷拇笮『图軜?gòu)。LLM會(huì)是一個(gè)多任務(wù)處理者,擅長(zhǎng)生成長(zhǎng)格式文本任務(wù),還是會(huì)專注于狹窄的特定功能,例如命名實(shí)體識(shí)別?精確定位需求可以節(jié)省寶貴的時(shí)間和計(jì)算資源。

2.一旦對(duì)項(xiàng)目有了清晰的愿景,就可以決定是從頭開始訓(xùn)練自己的模型還是使用現(xiàn)有的基礎(chǔ)模型作為基礎(chǔ)。一般來說,修改現(xiàn)有模型是一種常見且有效的途徑,盡管在某些情況下可能需要從頭開始訓(xùn)練。

3.模型準(zhǔn)備好后,下一階段是性能評(píng)估。如果結(jié)果不符合期望,可能需要額外的訓(xùn)練??梢詮摹翱焖俟こ獭遍_始,使用與任務(wù)相關(guān)的示例來指導(dǎo)模型。如果這還不夠,下一步可能是微調(diào)模型(我們將很快對(duì)此進(jìn)行更詳細(xì)的解釋)。隨著模型變得越來越強(qiáng)大,確保它們?cè)诓渴饡r(shí)表現(xiàn)良好并且其輸出符合人類偏好變得越來越重要。

4.這個(gè)過程的一個(gè)關(guān)鍵部分是不斷評(píng)估。使用指標(biāo)和基準(zhǔn)可以跟蹤模型的執(zhí)行情況并進(jìn)行必要的調(diào)整。這是一個(gè)迭代的過程??赡軙?huì)在快速工程、評(píng)估和微調(diào)之間循環(huán),直到達(dá)到所需的性能。

5.當(dāng)擁有滿足性能需求并符合期望的模型時(shí),就可以進(jìn)行部署了。在此階段優(yōu)化模型可以確保計(jì)算資源的有效利用和良好的用戶體驗(yàn)。

6.最后還需要考慮應(yīng)用程序所需的基礎(chǔ)架構(gòu)。每個(gè)LLM都有其局限性。為這些做好準(zhǔn)備并建立補(bǔ)償它們的基礎(chǔ)設(shè)施至關(guān)重要。

3. 從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)

人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是機(jī)器學(xué)習(xí)的最新突破之一,它將人類反饋融入強(qiáng)化學(xué)習(xí)任務(wù)中。當(dāng)模型執(zhí)行任務(wù)或做出預(yù)測(cè)時(shí),人們會(huì)提供關(guān)于它是否做得好或哪里出錯(cuò)的反饋。假設(shè)正在使用LLM來起草客戶支持回復(fù)。第一次,LLM可能會(huì)生成過于正式或缺乏有關(guān)產(chǎn)品的具體細(xì)節(jié)的響應(yīng)。用戶提供的反饋表明響應(yīng)中存在的問題。通過RLHF,模型可以從反饋中學(xué)習(xí),對(duì)于以后的查詢,LLM有更大的機(jī)會(huì)生成更友好和詳細(xì)的響應(yīng)。如果有類似的詢問,LLM可能會(huì)生成更友好和詳細(xì)的答復(fù)。當(dāng)不斷提供反饋時(shí),該模型會(huì)變得更加擅長(zhǎng)制定符合應(yīng)用基調(diào)和客戶特定需求的響應(yīng)。

baa19b04-a97e-11ee-8b88-92fbcf53809c.png

根據(jù)人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)。圖源:superannotate.com

此外,傳統(tǒng)的強(qiáng)化學(xué)習(xí)可能會(huì)優(yōu)化語法正確性和字?jǐn)?shù)。借助RLHF,人類評(píng)估者可以引導(dǎo)模型走向創(chuàng)造力、情感共鳴和原創(chuàng)性,這些元素難以量化,但對(duì)于令人難忘的敘述至關(guān)重要。

但RLHF的真正魔力在于它結(jié)合了兩方面優(yōu)點(diǎn)的潛力:機(jī)器的計(jì)算能力和人類的直觀理解。這不僅僅是讓人工智能變得更聰明;這是為了讓它變得更明智。

4 -提示工程(Prompt Engineering)

提示工程(Prompt Engineering)是掌握大型語言模型的一個(gè)非常重要且有趣的部分。這是一個(gè)優(yōu)化人工智能性能的過程,擅長(zhǎng)這個(gè)過程的人通常會(huì)成功地從LLM那里獲得他們想要的輸出。我們將用戶提供給模型的輸入文本稱為“提示”,將LLM生成的輸出文本稱為“結(jié)果”。

如果使用過任何大型語言模型,用戶可能在不自覺中已經(jīng)進(jìn)行了提示工程。如果模型在第一次嘗試時(shí)未提供所需輸出的情況,用戶一般會(huì)多次修改請(qǐng)求以“提示”模型期望它返回的內(nèi)容,這本質(zhì)上就是是提示工程。而提示工程的一項(xiàng)關(guān)鍵策略就是情境學(xué)習(xí)(In-context learning)。

4.1 - 情境學(xué)習(xí)(In-context learning)

情境學(xué)習(xí)是一種通過提示中的特定任務(wù)示例來改進(jìn)提示的方法,它為L(zhǎng)LM提供需要完成的任務(wù)的藍(lán)圖。情境學(xué)習(xí)包含下面一些技術(shù):

“零樣本推理(Zero-shot inference)”是一種用于GPT-3等LLM的策略,它將輸入數(shù)據(jù)合并到提示中,而無需任何額外的示例。雖然這種方法通常適用于較大的模型,但較小的模型可能很難理解任務(wù)。這只是一種問答方法,您的請(qǐng)求可能足夠簡(jiǎn)單,不需要模型的額外提示。

如果零樣本推理不能產(chǎn)生所需的結(jié)果,則可以使用“單樣本(one-shot)”或“少樣本(few-shot)推理”。這些策略包括在提示中添加一個(gè)或多個(gè)已完成的示例,幫助較小的法學(xué)碩士表現(xiàn)得更好。例如,要對(duì)電影評(píng)論的情感進(jìn)行分類,提示將包括說明、評(píng)論文本以及最后的情感分析請(qǐng)求。

假設(shè)正在嘗試教導(dǎo)LLM提高其對(duì)電影評(píng)論進(jìn)行分類的能力??赡軙?huì)用到這樣的提示:

對(duì)這篇評(píng)論進(jìn)行分類:“一部令人驚嘆的杰作,讓我激動(dòng)不已。” 情緒:積極

現(xiàn)在給模型分類“一部花了我一生三個(gè)小時(shí)的無聊電影”,它會(huì)將情緒分類為“負(fù)面”。

baca6e4e-a97e-11ee-8b88-92fbcf53809c.png

情境學(xué)習(xí)。圖源:superannotate.com

大語言模型的表現(xiàn)很大程度上取決于其規(guī)模。較大的模型更擅長(zhǎng)通過零樣本推理處理各種任務(wù),即使是那些沒有明確訓(xùn)練過的任務(wù)。然而,較小的模型擅長(zhǎng)執(zhí)行與其訓(xùn)練類似的任務(wù)。因此,找到完美的平衡通常需要嘗試不同的模型和配置。

4.2 - 微調(diào)(Fine-tuning)

需要承認(rèn)的是,對(duì)于較小的模型,即使包含五六個(gè)示例,上下文學(xué)習(xí)也并不總是有效。此外,“上下文窗口”(模型可以處理的上下文學(xué)習(xí)量)也有其局限性。提示中包含的任何示例都會(huì)占用上下文窗口中的寶貴空間,從而減少了包含其他有用信息的空間量。如果多個(gè)示例不能提高模型的性能,那么可能是時(shí)候?qū)LM進(jìn)行微調(diào)了。此過程涉及使用新數(shù)據(jù)進(jìn)行額外訓(xùn)練以提高特定任務(wù)的性能。

微調(diào)是預(yù)訓(xùn)練之后的過程,其中模型在較小的特定數(shù)據(jù)集上進(jìn)一步訓(xùn)練(或微調(diào))。該數(shù)據(jù)集通常與特定任務(wù)或領(lǐng)域相關(guān)。通過在這個(gè)更窄的數(shù)據(jù)集上進(jìn)行訓(xùn)練,模型變得專業(yè)化,并且在與該特定領(lǐng)域相關(guān)的任務(wù)上表現(xiàn)更好。

例如,如果想要一個(gè)語言模型來回答醫(yī)學(xué)問題,可以使用醫(yī)學(xué)教科書和期刊對(duì)其進(jìn)行微調(diào)。這樣,LLM就能更好地理解和生成與醫(yī)學(xué)主題相關(guān)的回復(fù)。

請(qǐng)注意,就像預(yù)訓(xùn)練一樣,完全微調(diào)需要足夠的內(nèi)存和計(jì)算預(yù)算來存儲(chǔ)和處理訓(xùn)練期間更新的所有梯度、優(yōu)化器和其他組件。

5 - 大語言模型的挑戰(zhàn)和局限性

深入研究語言模型的核心,我們也必須面對(duì)它們的挑戰(zhàn)。以下是一些值得一提的挑戰(zhàn):

海量數(shù)據(jù)和計(jì)算:第一個(gè)重大挑戰(zhàn)是大語言模型所需的海量數(shù)據(jù)。LLM對(duì)用于訓(xùn)練的大量文本數(shù)據(jù)有著巨大的需求。從邏輯上講,LLM攝入的數(shù)據(jù)越多,需要的計(jì)算資源就越多,更不用說時(shí)間了。這使得大型語言模型訓(xùn)練過程資源密集。

可解釋性問題:接下來是可解釋性問題。眾所周知,大型語言模型的功能就像密封的金庫一樣。確定它們產(chǎn)生某些輸出的原因和方式具有挑戰(zhàn)性,因?yàn)樗鼈兊墓ぷ鞣绞骄拖駴]有密鑰的密碼。OpenAI試圖通過引入一種工具來解決這個(gè)“黑匣子”問題,該工具可以自動(dòng)識(shí)別模型的哪些部分負(fù)責(zé)其行為的哪些部分。

badb5b78-a97e-11ee-8b88-92fbcf53809c.png

可解釋性問題。圖源:openai.com

過度概括:盡管LLM接受過廣泛多樣的數(shù)據(jù)訓(xùn)練,但有時(shí)會(huì)做出廣泛的概括,而忽略了語言、文化和背景中更細(xì)微的差別。

無意識(shí)的錯(cuò)誤信息:LLM缺乏綜合的事實(shí)核查程序,使他們很容易生成看似合理但實(shí)際上不正確或具有誤導(dǎo)性的文本。當(dāng)這些模型部署在準(zhǔn)確性至關(guān)重要的應(yīng)用程序中(例如新聞報(bào)道或醫(yī)療診斷)時(shí),這一點(diǎn)尤其令人擔(dān)憂。這也是一個(gè)正在解決的問題,我們很快就會(huì)看到如何解決。

災(zāi)難性遺忘:大型語言模型(LLM)可以適應(yīng)特定任務(wù),例如通過稱為“微調(diào)”的過程生成詩歌。雖然使用相對(duì)較小的數(shù)據(jù)集進(jìn)行微調(diào)可以使模型在特定任務(wù)上表現(xiàn)出色,但它可能會(huì)導(dǎo)致“災(zāi)難性遺忘”,即模型在其他任務(wù)中失去熟練程度。如果保留多任務(wù)處理能力至關(guān)重要,“多任務(wù)微調(diào)”或“參數(shù)高效微調(diào)”(PEFT)等解決方案可以防止這種遺忘,使模型成為性能優(yōu)化的專家,而不會(huì)失去其一般能力。

是的,我們應(yīng)該小心對(duì)待大語言模型。LLM可能會(huì)避免承認(rèn)它不知道的事情,并且很可能給出錯(cuò)誤的信息。因此,尤其是對(duì)于關(guān)鍵案例,比如說醫(yī)學(xué)診斷,需要謹(jǐn)慎對(duì)待LLM的結(jié)果。

6 - 負(fù)責(zé)任的人工智能(Responsible AI)

生成人工智能的世界,特別是與大型語言模型(LLM)相關(guān)的世界,正在經(jīng)歷瘋狂的變化。讓我們了解一些圍繞人工智能的道德問題。

這里要解決的三個(gè)基本挑戰(zhàn)是毒性、幻覺和知識(shí)產(chǎn)權(quán)問題。

?毒性:人工智能背景下的毒性是指可能對(duì)特定群體,特別是邊緣化或受保護(hù)群體產(chǎn)生不利影響的有害或歧視性語言。針對(duì)這一挑戰(zhàn)的緩解策略包括精心管理訓(xùn)練數(shù)據(jù)、過濾掉不合適的內(nèi)容以及雇用多元化的人類注釋者團(tuán)隊(duì)進(jìn)行訓(xùn)練。各種注釋團(tuán)隊(duì)有助于確??紤]各種觀點(diǎn),從而降低人工智能模型中存在偏見的風(fēng)險(xiǎn)。

幻覺:另一方面,幻覺是人工智能產(chǎn)生毫無根據(jù)或不真實(shí)的輸出的情況。問題是,人工智能有時(shí)會(huì)嘗試填補(bǔ)一些缺失數(shù)據(jù)的空白,導(dǎo)致人工智能開始“產(chǎn)生幻覺”。這種現(xiàn)象可能會(huì)導(dǎo)致誤導(dǎo)或不正確的輸出。用戶教育在應(yīng)對(duì)這一挑戰(zhàn)方面發(fā)揮著至關(guān)重要的作用。用戶需要了解人工智能技術(shù)的現(xiàn)實(shí)以及產(chǎn)生幻覺的可能性。其他潛在的解決方案包括將人工智能輸出與經(jīng)過驗(yàn)證的數(shù)據(jù)源交叉引用,開發(fā)將輸出追溯到原始訓(xùn)練數(shù)據(jù)的方法,以及明確定義人工智能的預(yù)期和非預(yù)期用途。

知識(shí)產(chǎn)權(quán)問題:當(dāng)人工智能模型生成可能侵犯現(xiàn)有版權(quán)或抄襲現(xiàn)有作品的內(nèi)容時(shí),就會(huì)出現(xiàn)知識(shí)產(chǎn)權(quán)問題。解決這個(gè)問題需要技術(shù)創(chuàng)新、政策制定和法律干預(yù)相結(jié)合。機(jī)器學(xué)習(xí)等新興概念(指減少或刪除受保護(hù)內(nèi)容或其對(duì)人工智能輸出的影響)以及內(nèi)容過濾和阻止等保護(hù)措施可以幫助緩解這一問題。

為了負(fù)責(zé)任地實(shí)施和使用生成式人工智能模型,定義特定用例、持續(xù)評(píng)估風(fēng)險(xiǎn)并定期根據(jù)數(shù)據(jù)和系統(tǒng)評(píng)估性能至關(guān)重要。重要的是要記住,創(chuàng)建人工智能是一個(gè)持續(xù)、迭代的循環(huán),需要隨著時(shí)間的推移進(jìn)行勤奮的監(jiān)控和改進(jìn)。此外,制定明確的治理政策并讓每個(gè)利益相關(guān)者在整個(gè)人工智能生命周期中承擔(dān)責(zé)任,以確保負(fù)責(zé)任的人工智能使用也至關(guān)重要。

7 - 大語言模型領(lǐng)域的主要參與者

生成式人工智能和大型語言模型(LLM)領(lǐng)域涌入了大量現(xiàn)金,資金數(shù)額瘋狂,競(jìng)爭(zhēng)激烈。下面是一些在LLM競(jìng)賽中的佼佼者。

OpenAI是LLM的開拓者、創(chuàng)新者和主要參與者。OpenAI成立于2015年,到2023年6月累計(jì)融資達(dá)到113億美元,在2022年底催生了ChatGPT的火熱,也標(biāo)志著企業(yè)目前對(duì)LLM癡迷的開始。OpenAI的所有GPT模型,尤其是最近的模型(GPT-4Turbo、GPT agents、Q*算法)都獲得了廣泛關(guān)注,它們的快速進(jìn)步既充滿希望又令人恐懼。不僅數(shù)億人將ChatGPT用于日常辦公任務(wù)、工作或愛好,而且數(shù)百家企業(yè)也在其產(chǎn)品中采用GPT系統(tǒng)。世界在生成式人工智能和LLM領(lǐng)域沸騰。

Google是大語言模型的奠基者和主要參與者。Google最早提出了Transformer和Bert等大語言模型的關(guān)鍵基礎(chǔ)架構(gòu)和模型。Bert是一種預(yù)訓(xùn)練的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它可以在各種自然語言處理任務(wù)中表現(xiàn)出色。Bert的主要貢獻(xiàn)是,它可以通過雙向編碼器來理解上下文,從而更好地預(yù)測(cè)單詞的含義。這使得Bert在各種自然語言處理任務(wù)中表現(xiàn)出色,例如問答、文本分類、命名實(shí)體識(shí)別等。此外,Google還開發(fā)了其他語言模型,例如T5、PaLM 2,這些模型也在自然語言處理領(lǐng)域中取得了很大的成功。

微軟是大語言模型的企業(yè)參與者。它與Meta、OpenAI、Adept等法學(xué)碩士參與者合作并提供資助,并在該領(lǐng)域發(fā)揮了重要作用。微軟的Bing使用ChatGPT,但與此模型不同的是,Bing使用互聯(lián)網(wǎng)和實(shí)時(shí)數(shù)據(jù)(而ChatGPT的響應(yīng)包括截至2021年的數(shù)據(jù))。Bing使用ChatGPT,但與OpenAI的模型不同,它可以訪問互聯(lián)網(wǎng),并且運(yùn)行起來就像人工智能驅(qū)動(dòng)的搜索引擎。與以2021年為知識(shí)截止日期的ChatGPT不同,Bing提供最新的響應(yīng)。Bing允許每個(gè)對(duì)話有20個(gè)回復(fù),建議后續(xù)問題,并具有三種對(duì)話風(fēng)格(更精確、創(chuàng)造性和平衡)。

MetaAI(以前稱為FacebookAI)是一個(gè)開源玩家,擁有LLama和LLama2等知名開源LLM模型。通過開源模型,Meta旨在讓企業(yè)、初創(chuàng)公司、企業(yè)家和研究人員能夠使用其開發(fā)的工具,這些工具的開發(fā)規(guī)模是他們自己難以構(gòu)建的,并得到他們可能無法獲得的計(jì)算能力的支持,這將打開一個(gè)充滿機(jī)遇的世界讓他們以令人興奮的方式進(jìn)行實(shí)驗(yàn)和創(chuàng)新,并最終從經(jīng)濟(jì)和社會(huì)上受益。

xAI于11月4日推出了名為GrokAI的語言模型。Grok是一種實(shí)時(shí)語言模型,其特點(diǎn)是幽默和諷刺。它根據(jù)X的內(nèi)容進(jìn)行訓(xùn)練,并使用檢索增強(qiáng)生成(RAG)技術(shù)來提供新鮮且最新的信息。xAI向語言模型邁出了非常大膽的一步,構(gòu)建了一個(gè)不符合大多數(shù)其他語言模型編程的道德和倫理約束的模型。它可以變得狂野和粗俗,這取決于要求的內(nèi)容。

Anthropic是這些參與者中最年輕的之一,在2021年成立后就成功籌集了15億美元。其創(chuàng)始人是前OpenAI員工,而他們的模型(Claude)最與眾不同的一件事是他們稱為“憲法人工智能”的新技術(shù)——人工智能監(jiān)督其他人工智能的系統(tǒng)。換句話說,這里的人為干預(yù)被最小化,只是制定一些規(guī)則和指南,其余的都是人工智能。憲法人工智能是關(guān)于通過零人類標(biāo)簽的自我改進(jìn)來訓(xùn)練無害人工智能助手的模型。請(qǐng)注意,這種新穎的技術(shù)受到Quora、RobinAI等許多用戶的喜愛。

Cohere成立于2019年,擁有4.35億美元資金。Cohere的創(chuàng)始人之一艾丹·戈麥斯(AidanGomez)是我們之前討論過的革命性論文《Attention is all you need》的合著者。Kon于2023年初加入Cohere,他表示:“我們作為獨(dú)立的、與云無關(guān)的企業(yè)AI平臺(tái)而脫穎而出。我們專注于幫助客戶利用他們的數(shù)據(jù)創(chuàng)建專有的LLM功能,并創(chuàng)造戰(zhàn)略差異化和業(yè)務(wù)?!眱r(jià)值。”未來,Cohere計(jì)劃構(gòu)建模型,為客戶執(zhí)行真正的助理會(huì)做的任務(wù)—安排通話/會(huì)議、預(yù)訂航班和歸檔費(fèi)用報(bào)告。

Inflection AI由LinkedIn聯(lián)合創(chuàng)始人Reid Hoffman和DeepMind創(chuàng)始成員Mustafa Suleyman領(lǐng)導(dǎo),最近獲得13億美元投資,用于打造更多“個(gè)人人工智能”。投資者由微軟、里德·霍夫曼、比爾·蓋茨、埃里克·施密特和新投資者英偉達(dá)領(lǐng)投。這筆資金用于構(gòu)建他們的第一個(gè)產(chǎn)品:個(gè)人人工智能助理PI。蘇萊曼說,他們的目標(biāo)是使人機(jī)對(duì)話盡可能自然,人類不需要簡(jiǎn)化他們的想法就可以與機(jī)器交流。“個(gè)人人工智能將成為我們一生中最具變革性的工具。這確實(shí)是一個(gè)拐點(diǎn),”蘇萊曼在一份預(yù)先聲明中說道。Inflection與微軟和Nvidia有著深厚的聯(lián)系(微軟也是OpenAI的大投資者),擁有大量現(xiàn)金來運(yùn)營(yíng)和運(yùn)營(yíng)他們需要的東西,穆斯塔法似乎對(duì)此非常有信心。

Adept是一家由前DeepMind、OpenAI和谷歌工程師和研究人員共同創(chuàng)立的初創(chuàng)公司,其概念與Inflection類似—可以自動(dòng)化任何軟件流程的人工智能。該玩家擁有4.15億美元的資金,但具有諷刺意味的是,該網(wǎng)站空空蕩蕩,還沒有任何產(chǎn)品。在他們的網(wǎng)站上,您可以加入等候名單,以便在產(chǎn)品準(zhǔn)備好后獲得通知。創(chuàng)始人表示,該模型將能夠使用Airtable、Photoshop、Tableau和Twilio等現(xiàn)有軟件來響應(yīng)“生成每月合規(guī)報(bào)告”或“在藍(lán)圖中這兩點(diǎn)之間繪制樓梯”等命令來完成任務(wù)。

這些只是致力于大型語言模型的眾多公司和組織中的一小部分。HuggingFace、BigScience、StabilityAI、Cerebras等其他公司也參與了這場(chǎng)競(jìng)賽。該領(lǐng)域正在迅速發(fā)展,新的參與者不斷涌現(xiàn)。

baf2cc5e-a97e-11ee-8b88-92fbcf53809c.png

LLM大玩家。圖源:superannotate.com

8 - 大語言模型的發(fā)展趨勢(shì)

大型語言模型很流行并被大量使用,但它還有很多改進(jìn)和發(fā)展的空間。我們收集了大語言模型的一些最新趨勢(shì)。

1. 合成數(shù)據(jù)(Synthetic data)

隨著對(duì)隱私的更多關(guān)注,合成數(shù)據(jù)正成為一個(gè)熱門話題。這些數(shù)據(jù)不是從現(xiàn)實(shí)場(chǎng)景中收集的,而是從頭開始創(chuàng)建的。使用合成數(shù)據(jù),我們可以減少對(duì)隱私問題的擔(dān)心。這可能會(huì)改變我們?cè)谛枰罅?a href="http://www.www27dydycom.cn/analog/" target="_blank">模擬的行業(yè)(例如視頻游戲或?yàn)?zāi)難響應(yīng)培訓(xùn))中使用人工智能的方式。

下面是谷歌研究人員創(chuàng)建的語言模型的示例,該模型使用自行生成的解決方案作為目標(biāo)輸出。

bb0924c2-a97e-11ee-8b88-92fbcf53809c.png

語言模型生成多個(gè)CoT推理路徑和答案。圖源:t.co/R0pWSNJ2sX

2. 事實(shí)核查(Fact-checking)

現(xiàn)在是信息爆炸的社會(huì),但并非所有信息都是準(zhǔn)確的。大型語言模型的另一個(gè)潛在改進(jìn)是自動(dòng)事實(shí)檢查。我們正在邁向這樣一個(gè)未來:人工智能可以實(shí)時(shí)告訴我們所閱讀的內(nèi)容是否準(zhǔn)確。這可以幫助我們打擊虛假信息的傳播,甚至發(fā)現(xiàn)深度偽造信息。

目前,谷歌的REALM和Facebook的RAG是解決LLM事實(shí)準(zhǔn)確性和可靠性問題的兩種最有前途的技術(shù)。除此之外,GPT的最新版本之一WebGPT使用Microsoft Bing來瀏覽請(qǐng)求,它在回復(fù)中加入了引用,使生成的回復(fù)更加準(zhǔn)確和可靠。事實(shí)上,WebGPT在響應(yīng)準(zhǔn)確性方面優(yōu)于ChatGPT和其他技術(shù)。

bb153c94-a97e-11ee-8b88-92fbcf53809c.png

真實(shí)的質(zhì)量檢查結(jié)果。圖源:arxiv.org/pdf/2112.09332.pdf

當(dāng)模型在其輸出中涵蓋來自互聯(lián)網(wǎng)的信息時(shí),它會(huì)包含引用,使個(gè)人能夠驗(yàn)證信息的來源。WebGPT的初步研究結(jié)果令人鼓舞,該模型在準(zhǔn)確響應(yīng)的百分比以及提供的真實(shí)和信息豐富的答案數(shù)量方面優(yōu)于所有GPT-3模型。

3. 專家模型(Expert models)

專家模型不是利用大型語言模型中的所有參數(shù),而是使用最適合給定查詢的這些參數(shù)的子集,這使得它們的計(jì)算要求較低。簡(jiǎn)而言之,這就是專家模型的概念。他們被稱為專家主要是因?yàn)樗麄兎浅I瞄L(zhǎng)特定領(lǐng)域,例如法律或醫(yī)學(xué)。如果提示要求提供與德語醫(yī)學(xué)成像相關(guān)的詳細(xì)信息,則只有這些專家將被激活,其余專家保持不活動(dòng)狀態(tài)。

其中一些稀疏專家模型包括Google的SwitchTransformer(1.6萬億個(gè)參數(shù))、Google的GLaM(1.2萬億個(gè)參數(shù))以及Meta的Mixture of Experts(MoE)和Mixture of Tokens(MoT)(1.1萬億個(gè)參數(shù))。

綜上所述,合成數(shù)據(jù)、事實(shí)核查和專家模型是人工智能發(fā)展的三大趨勢(shì),重新定義了人工智能的可能性。

9 - 要點(diǎn)總結(jié)

如今,大型語言模型在人工智能世界中風(fēng)光無限。當(dāng)我們探索其內(nèi)部運(yùn)作、挑戰(zhàn)、未來趨勢(shì)以及推動(dòng)其發(fā)展的關(guān)鍵技術(shù)時(shí),有一件事變得清晰:大語言模型有取得更大進(jìn)步的潛力。人類和機(jī)器能力的融合正在開拓語言和認(rèn)知領(lǐng)域的視野。我們迫不及待地想看看大型語言模型的世界即將發(fā)生什么。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249627
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10798
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    847

原文標(biāo)題:2023年大語言模型(LLM)全面調(diào)研:原理、進(jìn)展、領(lǐng)跑者、挑戰(zhàn)、趨勢(shì)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小白學(xué)大模型:從零實(shí)現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?516次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) <b class='flag-5'>LLM</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    詳解 LLM 推理模型的現(xiàn)狀

    2025,如何提升大型語言模型LLM)的推理能力成了最熱門的話題之一,大量?jī)?yōu)化推理能力的新策略開始出現(xiàn),包括擴(kuò)展推理時(shí)間計(jì)算、運(yùn)用強(qiáng)化學(xué)習(xí)、開展監(jiān)督微調(diào)和進(jìn)行提煉等。本文將深入探討
    的頭像 發(fā)表于 04-03 12:09 ?509次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的現(xiàn)狀

    無法在OVMS上運(yùn)行來自Meta的大型語言模型LLM),為什么?

    無法在 OVMS 上運(yùn)行來自 Meta 的大型語言模型LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲(chǔ)庫運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺(tái)

    LLM630LLM推理,視覺識(shí)別,可開發(fā),靈活擴(kuò)展···LLM630ComputeKit是一款A(yù)I大語言模型推理開發(fā)平臺(tái),專為邊緣計(jì)算和智能交互應(yīng)用而設(shè)計(jì)。該套件的主板搭載愛芯AX63
    的頭像 發(fā)表于 01-17 18:48 ?702次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理開發(fā)平臺(tái)

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語言模型LLM)在性能、成本和應(yīng)用前景上的快速發(fā)展,越來越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)
    的頭像 發(fā)表于 01-09 12:12 ?978次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    長(zhǎng)安汽車榮獲2024中國(guó)工業(yè)碳達(dá)峰“領(lǐng)跑者”企業(yè)

    近日,中國(guó)工業(yè)經(jīng)濟(jì)聯(lián)合會(huì)在第三屆中國(guó)工業(yè)碳達(dá)峰論壇上發(fā)布了2024中國(guó)工業(yè)碳達(dá)峰“領(lǐng)跑者”企業(yè),長(zhǎng)安汽車憑借在節(jié)能低碳與綠色轉(zhuǎn)型方面的突出成績(jī),得到國(guó)家部委、地方政府和行業(yè)組織的肯定,獲中國(guó)工業(yè)碳達(dá)峰“領(lǐng)跑者”企業(yè)榮譽(yù)稱號(hào)。
    的頭像 發(fā)表于 12-05 13:53 ?840次閱讀

    什么是LLMLLM在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進(jìn)步。其中,大型語言模型LLM)的出現(xiàn),標(biāo)志著我們對(duì)語言理解能力的一次
    的頭像 發(fā)表于 11-19 15:32 ?3665次閱讀

    LLM技術(shù)的未來趨勢(shì)分析

    隨著人工智能技術(shù)的飛速發(fā)展,大型語言模型LLM)已經(jīng)成為自然語言處理(NLP)領(lǐng)域的一個(gè)熱點(diǎn)。這些模型通過分析和學(xué)習(xí)大量的文本數(shù)據(jù),能夠執(zhí)
    的頭像 發(fā)表于 11-08 09:35 ?1146次閱讀

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語言模型LLM)是一個(gè)復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的一般步驟,以及一些關(guān)
    的頭像 發(fā)表于 11-08 09:30 ?1530次閱讀

    使用LLM進(jìn)行自然語言處理的優(yōu)缺點(diǎn)

    自然語言處理(NLP)是人工智能和語言學(xué)領(lǐng)域的一個(gè)分支,它致力于使計(jì)算機(jī)能夠理解、解釋和生成人類語言。大型語言模型
    的頭像 發(fā)表于 11-08 09:27 ?2461次閱讀

    新品|LLM Module,離線大語言模型模塊

    LLM,全稱大語言模型(LargeLanguageModel)。是一種基于深度學(xué)習(xí)的人工智能模型。它通過大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,從而能夠進(jìn)行對(duì)話、回答問題、撰寫文本等其他任務(wù)
    的頭像 發(fā)表于 11-02 08:08 ?1051次閱讀
    新品|<b class='flag-5'>LLM</b> Module,離線大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>模塊

    理解LLM中的模型量化

    在本文中,我們將探討一種廣泛采用的技術(shù),用于減小大型語言模型LLM)的大小和計(jì)算需求,以便將這些模型部署到邊緣設(shè)備上。這項(xiàng)技術(shù)稱為模型量化
    的頭像 發(fā)表于 10-25 11:26 ?707次閱讀
    理解<b class='flag-5'>LLM</b>中的<b class='flag-5'>模型</b>量化

    2024 19 種最佳大型語言模型

    大型語言模型2023生成式人工智能熱潮背后的推動(dòng)力。然而,它們已經(jīng)存在了一段時(shí)間了。LLM是黑盒AI系統(tǒng),它使用深度學(xué)習(xí)對(duì)超大數(shù)據(jù)集進(jìn)行
    的頭像 發(fā)表于 08-30 12:56 ?993次閱讀
    2024 <b class='flag-5'>年</b> 19 種最佳大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    小米SU7榮獲2024中國(guó)汽車低碳領(lǐng)跑者車型

    日前,中汽中心在京舉辦的2024汽車產(chǎn)業(yè)鏈低碳行動(dòng)計(jì)劃發(fā)展論壇上,小米SU7憑借其卓越的低碳性能,榮獲2024中國(guó)汽車低碳領(lǐng)跑者車型—C級(jí)純電動(dòng)轎車冠軍,不僅見證了小米SU7在綠色科技領(lǐng)域的非凡成就,更是對(duì)小米矢志不渝追求可持續(xù)發(fā)展的最佳詮釋。
    的頭像 發(fā)表于 08-15 17:19 ?1517次閱讀

    LLM模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對(duì)
    的頭像 發(fā)表于 07-24 11:38 ?1827次閱讀