一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT從入門到深入

深度學(xué)習(xí)自然語言處理 ? 來源:無數(shù)據(jù)不智能 ? 2023-05-16 10:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

ChatGPT從入門到深入(持續(xù)更新中)

循環(huán)記憶輸入

Recurrent Memory Transformer (RMT)

1d61838c-f35c-11ed-90ce-dac502259ad0.png

總體思想:將長文本分段之后得到嵌入向量與記憶向量拼接,得到新的記憶向量之后與下一段再循環(huán)輸入transformer。

注意:此論文實驗結(jié)果在bert-base-cased(encoder-only上進(jìn)行實驗)

1d887064-f35c-11ed-90ce-dac502259ad0.png

CoLT5達(dá)到64K,GPT-4達(dá)到32K長度,而RMT在實驗結(jié)果中長度加到4096個分段2048000詞匯,效果依然強(qiáng)勁。

用提示詞

Self-Controlled Memory (SCM)

1db53306-f35c-11ed-90ce-dac502259ad0.png

如上圖所示,此方法號稱可以將輸入延申至無限長,具體流程為:

  1. 用戶輸入

  2. 判斷是否需要從歷史會話中獲得記憶,提示詞如下:

    給定一個用戶指令,判斷執(zhí)行該指令是否需要歷史信
    息或者上文的信息,或者需要回憶對話內(nèi)容,只需要
    回答是(A)或者否(B),不需要解釋信息:
    指令:[用戶輸入]
    
  3. 如果需要獲取記憶,通過相關(guān)性(余弦相似度)、近期性分?jǐn)?shù)相加對歷史記憶進(jìn)行排序

  4. 將記憶摘要

    以下是用戶和人工智能助手的一段對話,請分
    別用一句話寫出用戶摘要、助手摘要,分段列
    出,要求盡可能保留用戶問題和助手回答的關(guān)
    鍵信息。
    對話內(nèi)容:
    用戶:[用戶輸入]
    助手:[系統(tǒng)回復(fù)]
    摘要:
    
  5. 將記憶和輸入拼接輸入模型

    以下是用戶和人工智能助手的對話,請根據(jù)歷史
    對話內(nèi)容,回答用戶當(dāng)前問題:
    相關(guān)歷史對話:
    [歷史輪對話內(nèi)容]
    上一輪對話:
    [上一輪對話內(nèi)容]
    ###
    用戶:[用戶問題]
    助手:
    
  6. 回復(fù)

注意:此論文中只進(jìn)行了定性分析,沒有定量實驗。以下是效果圖:

1e0293bc-f35c-11ed-90ce-dac502259ad0.png

詞匯壓縮

VIP-token centric compression (Vcc)

1e5d10bc-f35c-11ed-90ce-dac502259ad0.png

該方法使得模型輸入延申至128K,并在Encoder-Only、Encoder-Decoder兩種模型架構(gòu)上都進(jìn)行了實驗。

一句話描述思想:使模型輸入長度獨立于文本長度。

具體一點:

  1. 將當(dāng)前問句視為vip-token
  2. 利用當(dāng)前問句與歷史記憶的關(guān)系,壓縮歷史記憶到模型輸入長度,無論歷史記憶有多長
  3. transformer層輸出之后再進(jìn)行解壓縮

Encoder-Only架構(gòu)表現(xiàn):

1e9f5b66-f35c-11ed-90ce-dac502259ad0.png

Encoder-Decoder表現(xiàn):

1ec22858-f35c-11ed-90ce-dac502259ad0.png

檢索+交叉注意力

Unlimited Length Input Transformers (Unlimiformer)

1f1d2a50-f35c-11ed-90ce-dac502259ad0.png

此方法只試用于Encoder-Decoder架構(gòu),其也稱可以將輸入長度延申至無限長。

思路如下:

  1. 將長文本分成多個部分,將每一段進(jìn)行編碼
  2. 利用query KNN檢索長文本topN
  3. 解碼器對相關(guān)段落編碼后的隱藏狀態(tài)進(jìn)行交叉注意力
  4. 得到輸出

可以看到此方法在長文本摘要任務(wù)上都取得了優(yōu)異的結(jié)果

1f61dba0-f35c-11ed-90ce-dac502259ad0.png

累加

ALiBi(attention with linear biases),輸出累加

1f87801c-f35c-11ed-90ce-dac502259ad0.png

簡單介紹一下ALiBi:

  1. 不再輸入層保留位置向量
  2. 而在每層注入線性的偏移量,注意力分?jǐn)?shù)從:

變成了:

可以看到ALiBi比Sinusoidal、Rotary、T5 Bias在長距離輸入上效果都要好得多。

1fa12fb2-f35c-11ed-90ce-dac502259ad0.png

mosaicml/mpt-7b模型利用ALiBi將輸入長度擴(kuò)展至了84k,核心的思想為一下幾行代碼:

all_hidden_states=()ifoutput_hidden_stateselseNone
for(b_idx,block)inenumerate(self.blocks):
ifoutput_hidden_states:
assertall_hidden_statesisnotNone
all_hidden_states=all_hidden_states+(x,)
past_key_value=past_key_values[b_idx]ifpast_key_valuesisnotNoneelseNone
(x,past_key_value)=block(x,past_key_value=past_key_value,attn_bias=attn_bias,attention_mask=attention_mask,is_causal=self.is_causal)
ifpast_key_valuesisnotNone:
past_key_values[b_idx]=past_key_value

即MPT會對上次得到隱藏狀態(tài)與本次的輸入進(jìn)行相加。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1807

    文章

    49029

    瀏覽量

    249562
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1590

    瀏覽量

    9107

原文標(biāo)題:引用

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    C嵌入式C編程語言_入門·實用·深入_10...

    C嵌入式C編程語言_入門·實用·深入_10...
    發(fā)表于 08-18 07:37

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    產(chǎn)業(yè)版ChatGPT--ChatJD。 可見,大廠的態(tài)度十分鮮明:ChatGPT已經(jīng)是既定的未來,這場新的科技競技賽哨聲響起,誰都不甘落于下風(fēng)。科技巨頭,行業(yè)龍頭,中國企業(yè)競逐A
    發(fā)表于 03-03 14:28

    DSP入門精通全集

    DSP入門精通全集
    發(fā)表于 03-30 23:20 ?8490次下載

    nios入門精通

    nios入門精通
    發(fā)表于 07-08 16:55 ?0次下載

    Ubuntu入門精通

    《Ubuntu入門精通》Ubuntu一般是作為學(xué)習(xí)linux的入門操作系統(tǒng),界面良好,現(xiàn)在已經(jīng)非常流行,書中講的很多系統(tǒng)的使用技巧
    發(fā)表于 10-30 17:14 ?167次下載

    《HTML 5 入門精通》-中文學(xué)習(xí)教程

    《HTML 5 入門精通》-中文學(xué)習(xí)教程.pdf 《HTML 5 入門精通》-中文學(xué)習(xí)教
    發(fā)表于 11-02 17:45 ?0次下載

    Unity5 入門精通

    Unity5 入門精通。
    發(fā)表于 04-18 14:26 ?6次下載

    開關(guān)電容電路入門精通

    圖靈 開關(guān)電容電路 入門精通
    發(fā)表于 12-29 20:39 ?58次下載

    C游戲編程入門精通

    C游戲編程入門精通
    發(fā)表于 03-31 15:56 ?0次下載

    電工基礎(chǔ)入門知識大全入門精通

    本文檔內(nèi)容介紹了電工基礎(chǔ)入門知識大全,電工新手學(xué)什么電工入門。
    發(fā)表于 09-23 11:59 ?544次下載
    電工基礎(chǔ)<b class='flag-5'>入門</b>知識大全<b class='flag-5'>從</b><b class='flag-5'>入門</b><b class='flag-5'>到</b>精通

    ChatGPT入門指南

      ChatGPT入門指南   什么是ChatGPT?   為什么ChatGPT意義重大?   如何使用ChatGPT
    發(fā)表于 02-10 11:19 ?7次下載
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>入門</b>指南

    Android Studio入門精通

    Android Studio入門精通.pdf
    發(fā)表于 08-14 15:05 ?17次下載

    DeepSeek:入門精通

    DeepSeek:入門精通
    發(fā)表于 02-08 18:00 ?126次下載

    DeepSeek入門精通

    電子發(fā)燒友網(wǎng)站提供《DeepSeek入門精通.pdf》資料免費(fèi)下載
    發(fā)表于 03-04 15:43 ?60次下載

    DeepSeek:入門精通

    電子發(fā)燒友網(wǎng)站提供《DeepSeek:入門精通.pdf》資料免費(fèi)下載
    發(fā)表于 05-28 14:12 ?0次下載