一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

針對文本生成任務(wù)提出一種基于提示的遷移學(xué)習(xí)方法

深度學(xué)習(xí)自然語言處理 ? 來源:RUC AI Box ? 作者:李軍毅 ? 2022-09-23 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文將介紹我們已發(fā)表在NAACL 2022的兩篇論文,分別關(guān)注預(yù)訓(xùn)練語言模型的能力評測與提示遷移學(xué)習(xí)。預(yù)訓(xùn)練語言模型在廣泛的任務(wù)中取得了不錯的效果,但是對于預(yù)訓(xùn)練模型的語言能力仍缺乏系統(tǒng)性的評估與判斷。面對這一難題,我們提出了一個針對預(yù)訓(xùn)練語言模型的通用語言能力測試(ElitePLM),從記憶、理解、推理和創(chuàng)作四個能力維度評估5類10個預(yù)訓(xùn)練模型的語言能力,希望為后續(xù)研究提供選擇、應(yīng)用、解釋和設(shè)計預(yù)訓(xùn)練模型的參考指導(dǎo)。另外,目前預(yù)訓(xùn)練語言模型大多采用微調(diào)(fine-tuning)范式適應(yīng)文本生成任務(wù),但這一范式難以應(yīng)對數(shù)據(jù)稀疏的場景。因此,我們采用提示學(xué)習(xí)(prompt-based learning)構(gòu)建一個通用、統(tǒng)一且可遷移的文本生成模型PTG,在全樣本與少樣本場景下都具有不俗的表現(xiàn)。

一、預(yù)訓(xùn)練語言模型的能力評測

背景

近年來,預(yù)訓(xùn)練語言模型(PLMs)在各種各樣的任務(wù)上取得了非常不錯的結(jié)果。因此,如何從多個方面系統(tǒng)性地評估預(yù)訓(xùn)練模型的語言能力成為一個非常重要的研究話題,這有助于研究者為特定任務(wù)選擇合適的預(yù)訓(xùn)練語言模型。目前相關(guān)的研究工作往往聚焦于單個能力的評估,或者只考慮很少部分的任務(wù),缺乏系統(tǒng)的設(shè)計與測試。為了解決這一難題,我們針對預(yù)訓(xùn)練語言模型提出了一個通用語言能力測試(ElitePLM),從記憶、理解、推理、創(chuàng)作四個方面評估預(yù)訓(xùn)練模型的語言能力。

通用語言能力測試

評測模型

為了保證測試模型的廣泛性與代表性,我們選擇了五類預(yù)訓(xùn)練模型進行測試:

Bidirectional LMs: BERT, RoBERTa, ALBERT;

Unidirectional LMs: GPT-2;

Hybrid LMs: XLNet, UniLM;

Knowledge-enhanced LMs: ERNIE;

Text-to-Text LMs: BART, T5, ProphetNet;

記憶能力(Memory)

記憶是人類最基本的能力。ElitePLM將評估預(yù)訓(xùn)練語言模型在預(yù)訓(xùn)練階段記住的知識與語言模式,因此我們采用LAMA與Wikipedia兩個數(shù)據(jù)集。LAMA是常用的知識探針數(shù)據(jù)集,Wikipedia是廣泛使用的預(yù)訓(xùn)練語料,這兩個數(shù)據(jù)集都將轉(zhuǎn)化為填空式問題進行測試,評測指標(biāo)為Precision@1。評測結(jié)果如下圖所示(更多結(jié)果見原論文和附錄)??梢钥闯觯琑oBERTa采用雙向的訓(xùn)練目標(biāo)和一些魯棒的訓(xùn)練策略取得了最好的效果,因此預(yù)訓(xùn)練目標(biāo)和策略反映了模型記憶信息的方式,深刻影響模型的記憶能力。

fd387450-3afe-11ed-9e49-dac502259ad0.png

理解能力(Comprehension)

理解是一個復(fù)雜且多面的能力,包括對文本詞匯、背景知識、語言結(jié)構(gòu)的理解。因此,我們采用GLUE, SuperGLUE, SQuAD v1.1, SQuAD v2.0和RACE五個數(shù)據(jù)集對預(yù)訓(xùn)練模型理解詞匯、背景知識和語言結(jié)構(gòu)進行評測。GLUE的評測結(jié)果如下圖所示(更多結(jié)果見原論文和附錄)??梢钥闯觯谟洃洔y試上表現(xiàn)良好的模型(如RoBERTa,XLNet)在理解測試上也具有優(yōu)異的表現(xiàn),因此記憶能力的改善有助于提升理解能力。

fd56458e-3afe-11ed-9e49-dac502259ad0.png

推理能力(Reasoning)

推理是建立在文本理解的基礎(chǔ)上,ElitePLM中主要關(guān)注三種推理模式:常識推理、演繹推理和溯因推理。因此,我們采用CommonsenseQA, ROCStories, SWAG, HellaSwag, Sense Making和ARCT六個數(shù)據(jù)集對上述三種推理進行評測。評測結(jié)果如下圖所示(更多結(jié)果見原論文和附錄)??梢钥闯?,ALBERT采用inter-sentence coherence預(yù)訓(xùn)練目標(biāo)在推理測試中取得了不錯的效果,因此句子級推理目標(biāo)可以提升預(yù)訓(xùn)練模型的推理能力。雖然引入了知識,但是ERNIE在知識相關(guān)的數(shù)據(jù)集CommonsenseQA中表現(xiàn)平平,因此需要設(shè)計更加有效的知識融合方式。

fd7471f8-3afe-11ed-9e49-dac502259ad0.png

創(chuàng)作能力(Composition)

創(chuàng)作也就是從無到有生成新文本,它不僅需要模型對相關(guān)內(nèi)容的理解,還需要推理出合適的上下文。因為,我們采用WritingPrompts——故事生成, CNN/Daily Mail, GigaWord——摘要生成和SQuAD v1.1——問題生成四個數(shù)據(jù)集對模型的創(chuàng)作能力進行測試,其中故事生成為長文本生成任務(wù),摘要生成與問題生成為短文本生成任務(wù)。評測結(jié)果如下圖所示(更多結(jié)果見原論文和附錄)。可以看出,denoising預(yù)訓(xùn)練目標(biāo)更有利于短文本生成,left-to-right預(yù)訓(xùn)練目標(biāo)更有利于長文本生成。

fd87e846-3afe-11ed-9e49-dac502259ad0.png

結(jié)論

基于對預(yù)訓(xùn)練語言模型的記憶、理解、推理和創(chuàng)作能力的測試,我們發(fā)現(xiàn):(1)使用不同預(yù)訓(xùn)練目標(biāo)和策略的模型擅長不同的任務(wù),比如基于雙向目標(biāo)的BERT和使用魯棒訓(xùn)練策略的RoBERTa能夠很好地記憶預(yù)訓(xùn)練語料,使用permutation language modeling的XLNet在理解任務(wù)中可以有效地建模雙向的上下文信息,使用inter-sentence coherence目標(biāo)的ALBERT在句子級推理任務(wù)中更合適;(2)在微調(diào)預(yù)訓(xùn)練模型時,他們的表現(xiàn)受到目標(biāo)領(lǐng)域數(shù)據(jù)分布的影響比較大;(3)預(yù)訓(xùn)練模型在相似任務(wù)中的遷移能力出人意料的良好,特別是推理任務(wù)。ElitePLM除了作為預(yù)訓(xùn)練語言模型能力測試的基準(zhǔn),我們還開放了所有數(shù)據(jù)集的測試結(jié)果,基于這些測試結(jié)果,研究者可以對預(yù)訓(xùn)練模型在每種能力上的表現(xiàn)進行更加深入的分析。例如,我們在論文中分析了模型在QA任務(wù)上的測試結(jié)果,發(fā)現(xiàn)預(yù)訓(xùn)練模型對于復(fù)雜的答案類型仍然有待提高,此外,我們也對模型的創(chuàng)作文本進行了圖靈測試。

總之,ElitePLM希望能夠幫助研究者建立健全的原則,以在實際應(yīng)用中選擇、應(yīng)用、解釋和設(shè)計預(yù)訓(xùn)練模型。

二、 預(yù)訓(xùn)練語言模型的提示遷移

背景

目前大部分預(yù)訓(xùn)練語言模型都采用微調(diào)(fine-tuning)的方式來適應(yīng)文本生成任務(wù)。但是,在現(xiàn)實中,我們常常遇到只有少量標(biāo)注數(shù)據(jù)、難以進行微調(diào)的場景。我們知道,大部分文本生成任務(wù)都采用相似的學(xué)習(xí)機制例如Seq2Seq,預(yù)訓(xùn)練語言模型如GPT也展現(xiàn)了構(gòu)建通用且可遷移框架的重要性?;谏鲜瞿繕?biāo),我們采用提示學(xué)習(xí)(prompt-based learning)構(gòu)建一個通用、統(tǒng)一且可遷移的文本生成模型PTG,特別是對于數(shù)據(jù)稀疏的場景。

形式化定義

給定輸入文本與輸出文本,文本生成任務(wù)的目標(biāo)是最大化條件生成概率。本文采用連續(xù)提示,其中為提示向量數(shù)目,最終的訓(xùn)練目標(biāo)為。在遷移學(xué)習(xí)下,我們有一系列源任務(wù),其中第個源任務(wù) 包含條輸入文本與輸出文本,遷移學(xué)習(xí)的目標(biāo)是利用在源任務(wù)中學(xué)習(xí)到的知識解決目標(biāo)任務(wù)。在本文中,我們考慮一種基于提示學(xué)習(xí)的新型遷移學(xué)習(xí)框架:針對每個源任務(wù),我們學(xué)習(xí)獨立的source prompt , 然后將這些已學(xué)習(xí)的prompt遷移到目標(biāo)任務(wù)。

fdb3c3bc-3afe-11ed-9e49-dac502259ad0.png

模型

在這一過程,我們需要解決兩個核心挑戰(zhàn):(1)已有研究表明prompt是高度任務(wù)特定的,因此對于新任務(wù)來說需要有效的遷移及重用prompt機制;(2)對于單個任務(wù)而言,一個prompt顯然不足以應(yīng)對大量不同的數(shù)據(jù)樣本,因此有必要在prompt遷移過程中考慮任務(wù)于樣本的雙重特征。

學(xué)習(xí)可遷移的Source Prompts

對于每個源任務(wù),基于共享的一個凍結(jié)PLM,使用訓(xùn)練數(shù)據(jù)和訓(xùn)練目標(biāo)學(xué)習(xí)source prompt ,這些prompt將存儲在一個source prompt pool中,記為。構(gòu)建提示池的目的是為了將提示共享給所有目標(biāo)任務(wù),同時在遷移時考慮任務(wù)間的相似性。

如何衡量任務(wù)間的相似性?我們通過譜聚類的方式將source prompts進行聚簇,每個prompt將被看作是有權(quán)無向圖上的一個節(jié)點,然后采用min-max cut策略進行分割,最后得到所有簇,每個prompt屬于其中某個簇,簇中的prompt認(rèn)為具有任務(wù)間的相似性。

有了上述結(jié)構(gòu),我們將構(gòu)建一個multi-key記憶網(wǎng)絡(luò),對于簇中的一個source prompt ,它與一個可學(xué)習(xí)的cluster key 和一個可學(xué)習(xí)的prompt key 進行聯(lián)結(jié),即:

fde6ab38-3afe-11ed-9e49-dac502259ad0.png

遷移Instance Adaptive Prompts

在遷移prompt過程中,我們需要考慮任務(wù)特征與樣本特征,因此我們設(shè)計了一個自適應(yīng)的注意力機制,高效地學(xué)習(xí)target prompt來解決目標(biāo)任務(wù)。

對于目標(biāo)任務(wù)中的一個樣本,我們使用task query和instance query從提示池中選擇合適的source prompts來學(xué)習(xí)新的target prompt以解決目標(biāo)任務(wù)的樣本。Task query被定義為一個任務(wù)特定的可學(xué)習(xí)向量,instance query則需要考慮樣本輸入的特征,我們使用一個凍結(jié)的BERT計算,即,對BERT頂層每個單詞的表示采用平均池化操作。對于提示池中的prompt ,我們使用task query和instance query計算匹配分?jǐn)?shù):

fdf3ee9c-3afe-11ed-9e49-dac502259ad0.png

最終,對于目標(biāo)任務(wù)中的樣本,我們學(xué)習(xí)到的target prompt為?;诖?,我們在目標(biāo)任務(wù)上的訓(xùn)練目標(biāo)為:

fe0929d8-3afe-11ed-9e49-dac502259ad0.png

實驗結(jié)果

在實驗中,我們選擇三類生成任務(wù)的14個數(shù)據(jù)集:compression(包括摘要生成和問題生成)、transduction(包括風(fēng)格遷移和文本復(fù)述)以及creation(包括對話和故事生成)。數(shù)據(jù)集統(tǒng)計如下表所示。

fe13fb92-3afe-11ed-9e49-dac502259ad0.png

基準(zhǔn)模型方面,我們選擇了預(yù)訓(xùn)練語言模型(GPT-2, BART和T5)、Prefix-Tuning、SPoT和Multi-task Tuning,并分別在全樣本與少樣本兩種場景下進行任務(wù)間遷移與數(shù)據(jù)集間遷移的測試。

全樣本場景

對于任務(wù)間遷移實驗,我們考慮兩種情況:(1)目標(biāo)任務(wù)和數(shù)據(jù)集為摘要生成(CNN/Daily Mail),其他五種任務(wù)為源任務(wù);(2)目標(biāo)任務(wù)和數(shù)據(jù)集為對話(PersonaChat),其他五種任務(wù)為源任務(wù)。

對于數(shù)據(jù)集間遷移實驗,我們同樣也考慮兩種情況:(1)在摘要生成任務(wù)下,目標(biāo)數(shù)據(jù)集為CNN/Daily Mail或者XSUM,其他摘要數(shù)據(jù)集為源數(shù)據(jù)集;(2)在對話任務(wù)下,目標(biāo)數(shù)據(jù)集為PersonaChat或者DailyDialog,其他對話數(shù)據(jù)集為源數(shù)據(jù)集。

實驗結(jié)果如下表所示。可以看到,通過將prompt從源任務(wù)遷移到目標(biāo)任務(wù),PTG超越了GPT-2, BART, T5和Prefix-Tuning,這表明提示遷移提供了一種非常有效的預(yù)訓(xùn)練語言模型微調(diào)方式。其次,PTG也超越了同樣基于提示遷移的方法SPoT,這是因為SPoT在遷移時僅僅使用source prompt初始化target prompt。最后,PTG與Multi-task Tuning表現(xiàn)相當(dāng)甚至超越其表現(xiàn)。這表明簡單地混合所有任務(wù)進行微調(diào)并不足以應(yīng)對文本生成任務(wù)的復(fù)雜性。

fe23757c-3afe-11ed-9e49-dac502259ad0.png

少樣本場景

少樣本實驗下的任務(wù)間遷移與數(shù)據(jù)集間遷移設(shè)置與全樣本場景一致。除此以外,我們減少目標(biāo)任務(wù)與數(shù)據(jù)集的訓(xùn)練樣本數(shù)目為{50, 100, 200, 500}。對于每個數(shù)目,我們在2中隨機種子下分別進行5次實驗,最終結(jié)果為10次實驗的平均結(jié)果。

實驗結(jié)果如下表所示??梢钥吹剑贅颖緢鼍跋翽TG取得了與最強基準(zhǔn)模型Multi-task Tuning相當(dāng)?shù)谋憩F(xiàn),甚至超越其表現(xiàn),這也進一步說明了我們方法的有效性。

fe66de3e-3afe-11ed-9e49-dac502259ad0.png

消融實驗

此外,我們還設(shè)置了消融實驗,探究不同模塊對模型表現(xiàn)的影響,包括提示池(prompt pool)、提示聚簇(prompt cluster)、multi-key記憶網(wǎng)絡(luò)(multi-key memory network)和樣本級特征(instance-level query)。實驗結(jié)果如下表所示。

fe7a543c-3afe-11ed-9e49-dac502259ad0.png

任務(wù)間相似性分析

我們針對源任務(wù)上學(xué)習(xí)到的source prompts做了源任務(wù)間的相似性分析,下圖展示了prompt之間余弦相似度的熱力圖。可以看出,6個任務(wù)14個數(shù)據(jù)集大致可以分為3類,這與我們選擇數(shù)據(jù)集的類別基本吻合。

fe8cc8ec-3afe-11ed-9e49-dac502259ad0.png

結(jié)論

本文針對文本生成任務(wù)提出一種基于提示的遷移學(xué)習(xí)方法。通過在源任務(wù)學(xué)習(xí)一系列的源提示,模型將這些提示遷移到目標(biāo)任務(wù)以解決下游任務(wù)。在模型中,我們設(shè)計了一種自適應(yīng)注意力機制,在提示遷移時考慮任務(wù)特征和樣本特征。在大量實驗上的結(jié)果表明,我們的方法要優(yōu)于基準(zhǔn)辦法。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10795
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25453
  • 遷移學(xué)習(xí)
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    5733

原文標(biāo)題:NAACL'22 | 預(yù)訓(xùn)練模型哪家強?提示遷移學(xué)習(xí)為文本生成提供新思路

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    檢查結(jié)果為“通過”或?qū)徍藸顟B(tài)為“審核通過”。 那么對于這個問題,我也是嘗試去解決……這里分享下我了解到的情況和方法 首先,這個政策雖然說是針對AI文本生成模塊,但實際上,
    發(fā)表于 06-30 18:37

    章 W55MH32 高性能以太網(wǎng)單片機的學(xué)習(xí)方法概述

    本章介紹W55MH32的學(xué)習(xí)方法,建議先了解硬件資源,按基礎(chǔ)篇、入門篇循序漸進學(xué)習(xí)。參考兩份手冊,提供例程資料,還給出官網(wǎng)、github 等學(xué)習(xí)資料查找渠道。讓我們起踏上W55MH3
    的頭像 發(fā)表于 05-26 09:07 ?111次閱讀
    第<b class='flag-5'>一</b>章 W55MH32 高性能以太網(wǎng)單片機的<b class='flag-5'>學(xué)習(xí)方法</b>概述

    使用MATLAB進行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)一種根據(jù)未標(biāo)注數(shù)據(jù)進行推斷的機器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?689次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    一種無刷直流電機霍耳信號與定子繞組關(guān)系自學(xué)習(xí)方法

    的關(guān)系。提出一種無刷直流電機霍耳信號與定子繞組關(guān)系自學(xué)習(xí)方法,該方法通過不同的繞組通電組合將電機轉(zhuǎn)子依次轉(zhuǎn)到6個不同的位置并記錄對應(yīng)的霍耳信號,然后得出霍耳信號與定子繞組的對應(yīng)關(guān)系。
    發(fā)表于 03-25 15:15

    一種多模態(tài)駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術(shù)的快速發(fā)展對閉環(huán)仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術(shù)架構(gòu)。然而,現(xiàn)有的駕駛場景生成方法大多側(cè)重于圖像模態(tài),忽略了其他關(guān)鍵模態(tài)的建模,如地圖信息、
    的頭像 發(fā)表于 03-24 15:57 ?899次閱讀
    <b class='flag-5'>一種</b>多模態(tài)駕駛場景<b class='flag-5'>生成</b>框架UMGen介紹

    stm32cubemx 6.13.0(win)版本生成代碼中文注釋亂碼怎么解決?

    stm32cubemx 6.13.0(win)版本生成代碼中文注釋亂碼
    發(fā)表于 03-11 07:10

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

    理和理解這些數(shù)據(jù)。在自然語言處理中,Embedding常用于將文本數(shù)據(jù)中的單詞、句子或文檔映射為固定長度的實數(shù)向量,這些向量包含了豐富的語義信息。RAG技術(shù)是一種結(jié)合信息檢索與文本生成能力的技術(shù),它通過
    發(fā)表于 01-17 19:53

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)的機器學(xué)習(xí)方法。盡管深度學(xué)習(xí)般指神經(jīng)網(wǎng)絡(luò)算法)是個強大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比
    的頭像 發(fā)表于 12-30 09:16 ?1193次閱讀
    傳統(tǒng)機器<b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    一種混合顏料光譜分區(qū)間識別方法

    古代彩繪顏料的分析是科技考古與文物保護研究的重要內(nèi)容,高光譜是近年來發(fā)展迅速的新興技術(shù),在物質(zhì)識別上具有廣泛應(yīng)用,提出一種基于高光譜分區(qū)間的混合顏料識別方法。 一種混合顏料光譜分區(qū)間識
    的頭像 發(fā)表于 12-02 16:22 ?465次閱讀
    <b class='flag-5'>一種</b>混合顏料光譜分區(qū)間識別<b class='flag-5'>方法</b>

    RNN在圖片描述生成中的應(yīng)用

    隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,圖像描述生成(Image Captioning)作為計算機視覺和自然語言處理的交叉領(lǐng)域,受到了越來越多的關(guān)注。圖像描述生成任務(wù)旨在自動
    的頭像 發(fā)表于 11-15 09:58 ?955次閱讀

    一種創(chuàng)新的動態(tài)軌跡預(yù)測方法

    本文提出一種動態(tài)軌跡預(yù)測方法,通過結(jié)合歷史幀和歷史預(yù)測結(jié)果來提高預(yù)測的穩(wěn)定性和準(zhǔn)確性。它引入了歷史預(yù)測注意力模塊,以編碼連續(xù)預(yù)測之間的動態(tài)關(guān)系,并通過三重因子注意力模塊實現(xiàn)了最先進的性能。本
    的頭像 發(fā)表于 10-28 14:34 ?1098次閱讀
    <b class='flag-5'>一種</b>創(chuàng)新的動態(tài)軌跡預(yù)測<b class='flag-5'>方法</b>

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現(xiàn),取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?1089次閱讀

    AIGC技術(shù)在內(nèi)容創(chuàng)作中的應(yīng)用

    通過深度學(xué)習(xí)、自然語言處理、圖像識別等技術(shù),實現(xiàn)對文本、圖像、音頻和視頻等內(nèi)容的自動生成。AIGC技術(shù)的核心優(yōu)勢在于其高度的自動化和智能化,能夠在短時間內(nèi)生成大量高質(zhì)量的內(nèi)容。 二、A
    的頭像 發(fā)表于 10-25 15:08 ?2128次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    語言的表達(dá)方式和生成能力。通過預(yù)測文本中缺失的部分或下個詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語言模型通?;赥ransformer架構(gòu),這是
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    token; 緊隨token之后,作者講解了基于自回歸模型的字符預(yù)測方法以及文本生成原理,這些知識對我來說有些晦澀難懂,如果要熟練掌握是需要些時間的,只能后續(xù)抽空仔細(xì)研讀,暫且跳過繼續(xù)閱讀,后面
    發(fā)表于 07-25 14:33