一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT結(jié)構(gòu)對比

深度學(xué)習(xí)自然語言處理 ? 來源:ChallengeHub ? 2023-05-19 17:03 ? 次閱讀

1

LLama

[GPT3] 使用RMSNorm(即Root Mean square Layer Normalization)對輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,RMSNorm可以參考論文:Root mean square layer normalization。

[PaLM]使用激活函數(shù)SwiGLU, 該函數(shù)可以參考PALM論文:Glu variants improve transformer。

[GPTNeo]使用Rotary Embeddings進(jìn)行位置編碼,該編碼可以參考論文 Roformer: Enhanced transformer with rotary position embedding。

使用了AdamW優(yōu)化器,并使用cosine learning rate schedule,

使用因果多頭注意的有效實(shí)現(xiàn)來減少內(nèi)存使用和運(yùn)行時(shí)間。該實(shí)現(xiàn)可在xformers

2

Palm

采用SwiGLU激活函數(shù):用于 MLP 中間激活,采用SwiGLU激活函數(shù):用于 MLP 中間激活,因?yàn)榕c標(biāo)準(zhǔn) ReLU、GELU 或 Swish 激活相比,《GLU Variants Improve Transformer》論文里提到:SwiGLU 已被證明可以顯著提高模型效果

提出Parallel Layers:每個(gè) Transformer 結(jié)構(gòu)中的“并行”公式:與 GPT-J-6B 中一樣,使用的是標(biāo)準(zhǔn)“序列化”公式。并行公式使大規(guī)模訓(xùn)練速度提高了大約 15%。消融實(shí)驗(yàn)顯示在 8B 參數(shù)量下模型效果下降很小,但在 62B 參數(shù)量下沒有模型效果下降的現(xiàn)象。

Multi-Query Attention:每個(gè)頭共享鍵/值的映射,即“key”和“value”被投影到 [1, h],但“query”仍被投影到形狀 [k, h],這種操作對模型質(zhì)量和訓(xùn)練速度沒有影響,但在自回歸解碼時(shí)間上有效節(jié)省了成本。

使用RoPE embeddings:使用的不是絕對或相對位置嵌入,而是RoPE,是因?yàn)?RoPE 嵌入在長文本上具有更好的性能 ,

采用Shared Input-Output Embeddings:輸入和輸出embedding矩陣是共享的,這個(gè)我理解類似于word2vec的輸入W和輸出W':

3

GLM

Layer Normalization的順序和殘差連接被重新排列,

用于輸出標(biāo)記預(yù)測的單個(gè)線性層;

ReLU s替換為GELU s

二維位置編碼

4

BLOOM

f29ce854-f620-11ed-90ce-dac502259ad0.png

使用 ALiBi 位置嵌入,它根據(jù)鍵和查詢的距離直接衰減注意力分?jǐn)?shù)。與原始的 Transformer 和 Rotary 嵌入相比,它可以帶來更流暢的訓(xùn)練和更好的下游性能。ALiBi不會在詞嵌入中添加位置嵌入;相反,它會使用與其距離成比例的懲罰來偏向查詢鍵的注意力評分。

f2aa5d9a-f620-11ed-90ce-dac502259ad0.png

Embedding Layer Norm 在第一個(gè)嵌入層之后立即使用,以避免訓(xùn)練不穩(wěn)定。

使用了 25 萬個(gè)標(biāo)記的詞匯表。使用字節(jié)級 BPE。這樣,標(biāo)記化永遠(yuǎn)不會產(chǎn)生未知標(biāo)記

兩個(gè)全連接層:

f2b51230-f620-11ed-90ce-dac502259ad0.png

5

GPT

GPT 使用 Transformer 的 Decoder 結(jié)構(gòu),并對 Transformer Decoder 進(jìn)行了一些改動,原本的 Decoder 包含了兩個(gè) Multi-Head Attention 結(jié)構(gòu),GPT 只保留了 Mask Multi-Head Attention,如下圖所示:

f2c2d3ac-f620-11ed-90ce-dac502259ad0.png





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 電源優(yōu)化器
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    5459
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    15866
  • BPEKF算法
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    1102
  • MLP
    MLP
    +關(guān)注

    關(guān)注

    0

    文章

    57

    瀏覽量

    4444
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    316

    瀏覽量

    645

原文標(biāo)題:LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT結(jié)構(gòu)對比

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    【飛騰派4G版免費(fèi)試用】仙女姐姐的嵌入式實(shí)驗(yàn)室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

    一定的聯(lián)系。GPT通過大量閱讀和學(xué)習(xí)(模型訓(xùn)練),了解了詞匯之間的各種關(guān)系和搭配 向GPT提問時(shí),它會像在進(jìn)行這個(gè)串聯(lián)詞語游戲一樣,從這個(gè)問題出發(fā),尋找與問題相關(guān)的詞匯和信息。然后,GPT
    發(fā)表于 12-22 10:18

    【算能RADXA微服務(wù)器試用體驗(yàn)】+ GPT語音與視覺交互:1,LLM部署

    。環(huán)境變量的配置,未來在具體項(xiàng)目中我們會再次提到。 下面我們正式開始項(xiàng)目。項(xiàng)目從輸入到輸出分別涉及了語音識別,圖像識別,LLM,TTS這幾個(gè)與AI相關(guān)的模塊。先從最核心的LLM開始。 由于LLAMA
    發(fā)表于 06-25 15:02

    無法在OVMS上運(yùn)行來自Meta的大型語言模型LLM),為什么?

    無法在 OVMS 上運(yùn)行來自 Meta 的大型語言模型LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運(yùn)行 llama_chat Python* Demo 時(shí)
    發(fā)表于 03-05 08:07

    各種大語言模型是徹底被解封了

    基礎(chǔ) LLM 基本信息表,GPT-style 表示 decoder-only 的自回歸語言模型,T5-style 表示 encoder-decoder 的語言模型,
    的頭像 發(fā)表于 04-20 11:25 ?1787次閱讀

    號稱「碾壓」LLaMA的Falcon實(shí)測得分僅49.08,HuggingFace決定重寫排行榜代碼

    這是一組由 Meta 開源的大型語言模型,共有 7B、13B、33B、65B 四種版本。其中,LLaMA-13B 在大多數(shù)數(shù)據(jù)集上超過了 GPT-3(175B),LLaMA-65B 達(dá)
    的頭像 發(fā)表于 06-11 11:24 ?755次閱讀
    號稱「碾壓」<b class='flag-5'>LLaMA</b>的Falcon實(shí)測得分僅49.08,HuggingFace決定重寫排行榜代碼

    Llama 2性能如何

    在幾乎所有基準(zhǔn)上,Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好,不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。
    發(fā)表于 07-23 13:00 ?1412次閱讀
    <b class='flag-5'>Llama</b> 2性能如何

    Meta推出Llama 2 免費(fèi)開放商業(yè)和研究機(jī)構(gòu)使用

    與所有LLM一樣,Llama 2偶爾會產(chǎn)生不正確或不可用的答案,但Meta介紹Llama的論文聲稱,它在學(xué)術(shù)基準(zhǔn)方面與OpenAI的GPT 3.5不相上下,如MMLU(衡量
    的頭像 發(fā)表于 08-02 16:17 ?920次閱讀
    Meta推出<b class='flag-5'>Llama</b> 2 免費(fèi)開放商業(yè)和研究機(jī)構(gòu)使用

    深入理解Llama模型的源碼案例

    目前大部分開源LLM模型都是基于transformers庫來做的,它們的結(jié)構(gòu)大部分都和Llama大同小異。
    發(fā)表于 08-23 11:44 ?3429次閱讀
    深入理解<b class='flag-5'>Llama</b><b class='flag-5'>模型</b>的源碼案例

    智譜AI推出新一代基座大模型GLM-4

    智譜AI近日宣布推出新一代基座大模型GLM-4。這一模型在整體性能上相較上一代實(shí)現(xiàn)了大幅提升,其表現(xiàn)已逼近GPT-4。
    的頭像 發(fā)表于 01-17 15:29 ?1257次閱讀

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 發(fā)布的 LLaMA 2,是新的 sota 開源大型語言模型 (LLM)。LLaMA 2 代表著 LLaMA 的下一代版本,并且具有
    的頭像 發(fā)表于 02-21 16:00 ?1437次閱讀

    Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT

    Meta推出最強(qiáng)開源模型Llama 3 要挑戰(zhàn)GPT Facebook母公司Meta Platforms(META.US)推出了開源AI大模型Ll
    的頭像 發(fā)表于 04-19 17:00 ?1053次閱讀

    llm模型和chatGPT的區(qū)別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer)
    的頭像 發(fā)表于 07-09 09:55 ?1731次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP)任務(wù)。LLM模型的格式
    的頭像 發(fā)表于 07-09 09:59 ?1170次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術(shù)的飛速發(fā)展,我們見證了一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來革命性的變化。在這場技術(shù)競賽中,Llama 3和GPT-4作為兩個(gè)備受矚目的模型,它們代表了當(dāng)前A
    的頭像 發(fā)表于 10-27 14:17 ?971次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個(gè)維度進(jìn)行,包括但不限于技術(shù)架構(gòu)、性能表現(xiàn)、應(yīng)用場景、定制化能力、開源與成本等方面。以下是對Llama 3
    的頭像 發(fā)表于 10-27 14:37 ?861次閱讀