一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從預(yù)訓(xùn)練語(yǔ)言模型看MLM預(yù)測(cè)任務(wù)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:老劉說(shuō)NLP ? 作者:老劉說(shuō)NLP ? 2022-11-14 14:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Prompt Learning是當(dāng)前NLP的一個(gè)重要話題,已經(jīng)有許多文章進(jìn)行論述。

從本質(zhì)上來(lái)說(shuō),Prompt Learning 可以理解為一種下游任務(wù)的重定義方法,將幾乎所有的下游任務(wù)均統(tǒng)一為預(yù)訓(xùn)練語(yǔ)言模型任務(wù),從而避免了預(yù)訓(xùn)練模型和下游任務(wù)之間存在的 gap。

如此一來(lái),幾乎所有的下游 NLP 任務(wù)均可以使用,不需要訓(xùn)練數(shù)據(jù),在小樣本數(shù)據(jù)集的基礎(chǔ)上也可以取得超越 Fine-Tuning 的效果,使得所有任務(wù)在使用方法上變得更加一致,而局限于字面意義上的理解還遠(yuǎn)遠(yuǎn)不夠,我們可以通過(guò)一種簡(jiǎn)單、明了的方式進(jìn)行講述。

為了解決這一問(wèn)題,本文主要從預(yù)訓(xùn)練語(yǔ)言模型看MLM預(yù)測(cè)任務(wù)、引入prompt_template的MLM預(yù)測(cè)任務(wù)、引入verblize類別映射的Prompt-MLM預(yù)測(cè)、基于zero-shot的prompt情感分類實(shí)踐以及基于zero-shot的promptNER實(shí)體識(shí)別實(shí)踐五個(gè)方面,進(jìn)行代碼介紹,供大家一起思考。

一、從預(yù)訓(xùn)練語(yǔ)言模型看MLM預(yù)測(cè)任務(wù)

MLM和NSP兩個(gè)任務(wù)是目前BERT等預(yù)訓(xùn)練語(yǔ)言模型預(yù)訓(xùn)任務(wù),其中MLM要求指定周圍詞來(lái)預(yù)測(cè)中心詞,其模型機(jī)構(gòu)十分簡(jiǎn)單,如下所示:

importtorch.nnasnn
fromtransformersimportBertModel,BertForMaskedLM
classBert_Model(nn.Module):
def__init__(self,bert_path,config_file):
super(Bert_Model,self).__init__()
self.bert=BertForMaskedLM.from_pretrained(bert_path,config=config_file)#加載預(yù)訓(xùn)練模型權(quán)重
defforward(self,input_ids,attention_mask,token_type_ids):
outputs=self.bert(input_ids,attention_mask,token_type_ids)#maskedLM輸出的是mask的值對(duì)應(yīng)的ids的概率,輸出會(huì)是詞表大小,里面是概率
logit=outputs[0]#池化后的輸出[bs,config.hidden_size]
returnlogit

下面一段代碼,簡(jiǎn)單的使用了hugging face中的bert-base-uncased進(jìn)行空缺詞預(yù)測(cè),先可以得到預(yù)訓(xùn)練模型對(duì)指定[MASK]位置上概率最大的詞語(yǔ)【詞語(yǔ)來(lái)自于預(yù)訓(xùn)練語(yǔ)言模型的詞表】。

例如給定句子"natural language processing is a [MASK] technology.",要求預(yù)測(cè)出其中的[MASK]的詞:

>>>fromtransformersimportpipeline
>>>unmasker=pipeline('fill-mask',model='bert-base-uncased')
>>>unmasker("naturallanguageprocessingisa[MASK]technology.")
[{'score':0.18927036225795746,'token':3274,'token_str':'computer','sequence':'naturallanguageprocessingisacomputertechnology.'},
{'score':0.14354903995990753,'token':4807,'token_str':'communication','sequence':'naturallanguageprocessingisacommunicationtechnology.'},
{'score':0.09429361671209335,'token':2047,'token_str':'new','sequence':'naturallanguageprocessingisanewtechnology.'},
{'score':0.05184786394238472,'token':2653,'token_str':'language','sequence':'naturallanguageprocessingisalanguagetechnology.'},
{'score':0.04084266722202301,'token':15078,'token_str':'computational','sequence':'naturallanguageprocessingisacomputationaltechnology.'}]

從結(jié)果中,可以顯然的看到,[MASK]按照概率從大到小排序后得到的結(jié)果是,computer、communication、new、language以及computational,這直接反饋出了預(yù)訓(xùn)練語(yǔ)言模型能夠有效刻畫(huà)出NLP是一種計(jì)算機(jī)、交流以及語(yǔ)言技術(shù)。

二、引入prompt_template的MLM預(yù)測(cè)任務(wù)

因此,既然語(yǔ)言模型中的MLM預(yù)測(cè)結(jié)果能夠較好地預(yù)測(cè)出指定的結(jié)果,那么其就必定包含了很重要的上下文知識(shí),即上下文特征,那么,我們是否可以進(jìn)一步地讓它來(lái)執(zhí)行文本分類任務(wù)?即使用[MASK]的預(yù)測(cè)方式來(lái)預(yù)測(cè)相應(yīng)分類類別的詞,然后再將詞做下一步與具體類別的預(yù)測(cè)?

實(shí)際上,這種思想就是prompt的思想,將下游任務(wù)對(duì)齊為預(yù)訓(xùn)練語(yǔ)言模型的預(yù)訓(xùn)練任務(wù),如NPS和MLM,至于怎么對(duì)齊,其中引入兩個(gè)概念,一個(gè)是prompt_template,即提示模版,以告訴模型要生成與任務(wù)相關(guān)的詞語(yǔ)。因此,將任務(wù)原文text和prompt_template進(jìn)行拼接,就可以構(gòu)造與預(yù)訓(xùn)練語(yǔ)言模型相同的預(yù)訓(xùn)練任務(wù)。

例如,

>>>fromtransformersimportpipeline
>>>unmasker=pipeline('fill-mask',model='bert-base-uncased')
>>>text="Ireallylikethefilmalot."
>>>prompt_template="Becauseitwas[MASK]."
>>>pred1=unmasker(text+prompt_template)
>>>pred1
[
{'score':0.14730973541736603,'token':2307,'token_str':'great','sequence':'ireallylikethefilmalot.becauseitwasgreat.'},
{'score':0.10884211212396622,'token':6429,'token_str':'amazing','sequence':'ireallylikethefilmalot.becauseitwasamazing.'},
{'score':0.09781625121831894,'token':2204,'token_str':'good','sequence':'ireallylikethefilmalot.becauseitwasgood.'},
{'score':0.04627735912799835,'token':4569,'token_str':'fun','sequence':'ireallylikethefilmalot.becauseitwasfun.'},
{'score':0.043138038367033005,'token':10392,'token_str':'fantastic','sequence':'ireallylikethefilmalot.becauseitwasfantastic.'}]

>>>text="thismoviemakesmeverydisgusting."
>>>prompt_template="Becauseitwas[MASK]."
>>>pred2=unmasker(text+prompt_template)
>>>pred2
[
{'score':0.05464331805706024,'token':9643,'token_str':'awful','sequence':'thismoviemakesmeverydisgusting.becauseitwasawful.'},
{'score':0.050322480499744415,'token':2204,'token_str':'good','sequence':'thismoviemakesmeverydisgusting.becauseitwasgood.'},
{'score':0.04008950665593147,'token':9202,'token_str':'horrible','sequence':'thismoviemakesmeverydisgusting.becauseitwashorrible.'},
{'score':0.03569378703832626,'token':3308,'token_str':'wrong','sequence':'thismoviemakesmeverydisgusting.becauseitwaswrong.'},
{'score':0.033358603715896606,'token':2613,'token_str':'real','sequence':'thismoviemakesmeverydisgusting.becauseitwasreal.'}]

上面,我們使用了表達(dá)正面和負(fù)面的兩個(gè)句子,模型得到最高的均是與類型相關(guān)的詞語(yǔ),這也驗(yàn)證了這種方法的可行性。

三、引入verblize類別映射的Prompt-MLM預(yù)測(cè)

與構(gòu)造prompt-template之外,另一個(gè)重要的點(diǎn)是verblize,做詞語(yǔ)到類型的映射,因?yàn)镸LM模型預(yù)測(cè)的詞語(yǔ)很不確定,需要將詞語(yǔ)與具體的類別進(jìn)行對(duì)齊,比如將"great", "amazing", "good", "fun", "fantastic", "better"等詞對(duì)齊到"positive"上,當(dāng)模型預(yù)測(cè)結(jié)果出現(xiàn)這些詞時(shí),就可以將整個(gè)預(yù)測(cè)的類別設(shè)定為positive;

同理,將"awful", "horrible", "bad", "wrong", "ugly"等詞映射為“negative”時(shí),即可以將整個(gè)預(yù)測(cè)的類別設(shè)定為negative;

>>>verblize_dict={"pos":["great","amazing","good","fun","fantastic","better"],"neg":["awful","horrible","bad","wrong","ugly"]
...}
>>>hash_dict=dict()
>>>fork,vinverblize_dict.items():
...forv_inv:
...hash_dict[v_]=k
>>>hash_dict
{'great':'pos','amazing':'pos','good':'pos','fun':'pos','fantastic':'pos','better':'pos','awful':'neg','horrible':'neg','bad':'neg','wrong':'neg','ugly':'neg'}

因此,我們可以將這類方法直接加入到上面的預(yù)測(cè)結(jié)果當(dāng)中進(jìn)行修正,得到以下結(jié)果,

>>>[{"label":hash_dict[i["token_str"]],"score":i["score"]}foriinpred1]
[{'label':'pos','score':0.14730973541736603},{'label':'pos','score':0.10884211212396622},{'label':'pos','score':0.09781625121831894},{'label':'pos','score':0.04627735912799835},{'label':'pos','score':0.043138038367033005}]

>>>[{"label":hash_dict.get(i["token_str"],i["token_str"]),"score":i["score"]}foriinpred2]
[{'label':'neg','score':0.05464331805706024},{'label':'pos','score':0.050322480499744415},{'label':'neg','score':0.04008950665593147},{'label':'neg','score':0.03569378703832626},{'label':'real','score':0.033358603715896606}]

通過(guò)取top1,可直接得到類別分類結(jié)果,當(dāng)然也可以綜合多個(gè)預(yù)測(cè)結(jié)果,可以獲top10中各個(gè)類別的比重,以得到最終結(jié)果:

{
"text":"Ireallylikethefilmalot.","label":"pos"
"text":"thismoviemakesmeverydisgusting.","label":"neg"
}

至此,我們可以大致就可以大致了解在zero-shot場(chǎng)景下,prompt的核心所在。而我們可以進(jìn)一步的想到,如果我們有標(biāo)注數(shù)據(jù),又如何進(jìn)行繼續(xù)訓(xùn)練,如何更好的設(shè)計(jì)prompt-template以及做好這個(gè)詞語(yǔ)映射詞表,這也是prompt-learning的后續(xù)研究問(wèn)題。

因此,我們可以進(jìn)一步地形成一個(gè)完整的基于訓(xùn)練數(shù)據(jù)的prompt分類模型,其代碼實(shí)現(xiàn)樣例具體如下,從中我們可以大致在看出具體的算法思想,我們命名為prompt.py

fromtransformersimportAutoModelForMaskedLM,AutoTokenizer
importtorch

classPrompting(object):

def__init__(self,**kwargs):
model_path=kwargs['model']
tokenizer_path=kwargs['model']
if"tokenizer"inkwargs.keys():
tokenizer_path=kwargs['tokenizer']
self.model=AutoModelForMaskedLM.from_pretrained(model_path)
self.tokenizer=AutoTokenizer.from_pretrained(model_path)

defprompt_pred(self,text):
"""
輸入帶有[MASK]的序列,輸出LM模型Vocab中的詞語(yǔ)列表及其概率
"""
indexed_tokens=self.tokenizer(text,return_tensors="pt").input_ids
tokenized_text=self.tokenizer.convert_ids_to_tokens(indexed_tokens[0])
mask_pos=tokenized_text.index(self.tokenizer.mask_token)
self.model.eval()
withtorch.no_grad():
outputs=self.model(indexed_tokens)
predictions=outputs[0]
values,indices=torch.sort(predictions[0,mask_pos],descending=True)
result=list(zip(self.tokenizer.convert_ids_to_tokens(indices),values))
self.scores_dict={a:bfora,binresult}
returnresult

defcompute_tokens_prob(self,text,token_list1,token_list2):
"""
給定兩個(gè)詞表,token_list1表示表示正面情感positive的詞,如good,great,token_list2表示表示負(fù)面情感positive的詞,如good,great,bad,terrible.
在計(jì)算概率時(shí)候,統(tǒng)計(jì)每個(gè)類別詞所占的比例,score1/(score1+score2)并歸一化,作為最終類別概率。
"""
_=self.prompt_pred(text)
score1=[self.scores_dict[token1]iftoken1inself.scores_dict.keys()else0
fortoken1intoken_list1]
score1=sum(score1)
score2=[self.scores_dict[token2]iftoken2inself.scores_dict.keys()else0
fortoken2intoken_list2]
score2=sum(score2)
softmax_rt=torch.nn.functional.softmax(torch.Tensor([score1,score2]),dim=0)
returnsoftmax_rt

deffine_tune(self,sentences,labels,prompt="Sinceitwas[MASK].",goodToken="good",badToken="bad"):
"""
對(duì)已有標(biāo)注數(shù)據(jù)進(jìn)行Fine tune訓(xùn)練。
"""
good=tokenizer.convert_tokens_to_ids(goodToken)
bad=tokenizer.convert_tokens_to_ids(badToken)
fromtransformersimportAdamW
optimizer=AdamW(self.model.parameters(),lr=1e-3)
forsen,labelinzip(sentences,labels):
tokenized_text=self.tokenizer.tokenize(sen+prompt)
indexed_tokens=self.tokenizer.convert_tokens_to_ids(tokenized_text)
tokens_tensor=torch.tensor([indexed_tokens])
mask_pos=tokenized_text.index(self.tokenizer.mask_token)
outputs=self.model(tokens_tensor)
predictions=outputs[0]
pred=predictions[0,mask_pos][[good,bad]]
prob=torch.nn.functional.softmax(pred,dim=0)
lossFunc=torch.nn.CrossEntropyLoss()
loss=lossFunc(prob.unsqueeze(0),torch.tensor([label]))
loss.backward()
optimizer.step()

四、基于zero-shot的prompt情感分類實(shí)踐

下面我們直接以imdb中的例子進(jìn)行zero-shot的prompt分類實(shí)踐,大家可以看看其中的大致邏輯:

1、加入

>>fromtransformersimportAutoModelForMaskedLM,AutoTokenizer
>>importtorch
>>model_path="bert-base-uncased"
>>tokenizer=AutoTokenizer.from_pretrained(model_path)
>>frompromptimportPrompting
>>prompting=Prompting(model=model_path)

2、使用prompt_pred直接進(jìn)行情感預(yù)測(cè)

>>prompt="Becauseitwas[MASK]."
>>text="Ireallylikethefilmalot."
>>prompting.prompt_pred(text+prompt)[:10]
[('great',tensor(9.5558)),
('amazing',tensor(9.2532)),
('good',tensor(9.1464)),
('fun',tensor(8.3979)),
('fantastic',tensor(8.3277)),
('wonderful',tensor(8.2719)),
('beautiful',tensor(8.1584)),
('awesome',tensor(8.1071)),
('incredible',tensor(8.0140)),
('funny',tensor(7.8785))]
>>text="Ididnotlikethefilm."
>>prompting.prompt_pred(text+prompt)[:10]
[('bad',tensor(8.6784)),
('funny',tensor(8.1660)),
('good',tensor(7.9858)),
('awful',tensor(7.7454)),
('scary',tensor(7.3526)),
('boring',tensor(7.1553)),
('wrong',tensor(7.1402)),
('terrible',tensor(7.1296)),
('horrible',tensor(6.9923)),
('ridiculous',tensor(6.7731))]

2、加入neg/pos詞語(yǔ)vervlize進(jìn)行情感預(yù)測(cè)

>>text="notworthwatching"
>>prompting.compute_tokens_prob(text+prompt,token_list1=["great","amazin","good"],token_list2=["bad","awfull","terrible"])
tensor([0.1496,0.8504])

>>text="Istronglyrecommendthatmoview"
>>prompting.compute_tokens_prob(text+prompt,token_list1=["great","amazin","good"],token_list2=["bad","awfull","terrible"])
tensor([0.9321,0.0679])

>>text="Istronglyrecommendthatmoview"
>>prompting.compute_tokens_prob(text+prompt,token_list1=["good"],token_list2=["bad"])
tensor([0.9223,0.0777])

五、基于zero-shot的promptNER實(shí)體識(shí)別實(shí)踐

進(jìn)一步的,我們可以想到,既然分類任務(wù)可以進(jìn)行分類任務(wù),那么是否可以進(jìn)一步用這種方法來(lái)做實(shí)體識(shí)別任務(wù)呢?

實(shí)際上是可行的,暴力的方式,通過(guò)獲取候選span,然后詢問(wèn)其中實(shí)體所屬的類型集合。

1、設(shè)定prompt-template

同樣的,我們可以設(shè)定template,以一個(gè)人物為例,John是一個(gè)非常常見(jiàn)的名字,模型可以直接知道它是一個(gè)人,而不需要上下文

Sentence.Johnisatypeof[MASK]

2、使用prompt_pred直接進(jìn)行預(yù)測(cè)我們直接進(jìn)行處理,可以看看效果:

>>prompting.prompt_pred("JohnwenttoParistovisittheUniversity.Johnisatypeof[MASK].")[:5]
[('man',tensor(8.1382)),
('john',tensor(7.1325)),
('guy',tensor(6.9672)),
('writer',tensor(6.4336)),
('philosopher',tensor(6.3823))]
>>prompting.prompt_pred("Sava?wenttoParistovisittheuniversity.Sava?isatypeof[MASK].")[:5]
[('philosopher',tensor(7.6558)),
('poet',tensor(7.5621)),
('saint',tensor(7.0104)),
('man',tensor(6.8890)),
('pigeon',tensor(6.6780))]

2、加入類別詞語(yǔ)vervlize進(jìn)行情感預(yù)測(cè)
進(jìn)一步的,我們加入類別詞,進(jìn)行預(yù)測(cè),因?yàn)槲覀冃枰龅淖R(shí)別是人物person識(shí)別,因此我們可以將person類別相關(guān)的詞作為token_list1,如["person","man"],其他類型的,作為其他詞語(yǔ),如token_list2為["location","city","place"]),而在其他類別時(shí),也可以通過(guò)構(gòu)造wordlist字典完成預(yù)測(cè)。

>>>prompting.compute_tokens_prob("Itisatypeof[MASK].",
token_list1=["person","man"],token_list2=["location","city","place"])
tensor([0.7603,0.2397])

>>>prompting.compute_tokens_prob("Sava?wenttoParistovisittheparliament.Sava?isatypeof[MASK].",
token_list1=["person","man"],token_list2=["location","city","place"])//確定概率為0.76,將大于0.76的作為判定為person的概率
tensor([9.9987e-01,1.2744e-04])

從上面的結(jié)果中,我們可以看到,利用分類方式來(lái)實(shí)現(xiàn)zero shot實(shí)體識(shí)別,是直接有效的,“Sava?”判定為person的概率為0.99,

prompting.compute_tokens_prob("Sava?wenttoLaristovisittheparliament.Larisisatypeof[MASK].",
token_list1=["person","man"],token_list2=["location","city","place"])
tensor([0.3263,0.6737])

而在這個(gè)例子中,將“Laris”這一地點(diǎn)判定為person的概率僅僅為0.3263,也證明其有效性。

總結(jié)

本文主要從預(yù)訓(xùn)練語(yǔ)言模型看MLM預(yù)測(cè)任務(wù)、引入prompt_template的MLM預(yù)測(cè)任務(wù)、引入verblize類別映射的Prompt-MLM預(yù)測(cè)、基于zero-shot的prompt情感分類實(shí)踐以及基于zero-shot的promptNER實(shí)體識(shí)別實(shí)踐五個(gè)方面,進(jìn)行了代碼介紹。

關(guān)于prompt-learning,我們可以看到,其核心就在于將下游任務(wù)統(tǒng)一建模為了預(yù)訓(xùn)練語(yǔ)言模型的訓(xùn)練任務(wù),從而能夠最大地挖掘出預(yù)訓(xùn)模型的潛力,而其中的prompt-template以及對(duì)應(yīng)詞的構(gòu)造,這個(gè)十分有趣,大家可以多關(guān)注。

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    561

    瀏覽量

    10771
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22593

原文標(biāo)題:Prompt總結(jié) | 從MLM預(yù)訓(xùn)任務(wù)到Prompt Learning原理解析與Zero-shot分類、NER簡(jiǎn)單實(shí)踐

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 03-21 18:24 ?1561次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    Open Model Zoo下載的FastSeg大型公共預(yù)訓(xùn)練模型,無(wú)法導(dǎo)入名稱是怎么回事?

    Open Model Zoo 下載的 FastSeg 大型公共預(yù)訓(xùn)練模型。 運(yùn)行 converter.py 以將 FastSeg 大型模型
    發(fā)表于 03-05 07:22

    小白學(xué)大模型訓(xùn)練語(yǔ)言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語(yǔ)言模型(LLMs)正以其強(qiáng)大的語(yǔ)言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У?b class='flag-5'>訓(xùn)練大型
    的頭像 發(fā)表于 03-03 11:51 ?703次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:<b class='flag-5'>訓(xùn)練</b>大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開(kāi)始訓(xùn)練一個(gè)大語(yǔ)言模型需要投資多少錢》,其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對(duì)大
    的頭像 發(fā)表于 02-19 16:10 ?977次閱讀
    用PaddleNLP在4060單卡上實(shí)踐大<b class='flag-5'>模型</b><b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>技術(shù)

    騰訊公布大語(yǔ)言模型訓(xùn)練新專利

    近日,騰訊科技(深圳)有限公司公布了一項(xiàng)名為“大語(yǔ)言模型訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的新專利。該專利的公布,標(biāo)志著騰訊在大語(yǔ)言模型
    的頭像 發(fā)表于 02-10 09:37 ?396次閱讀

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化>這本書(shū)。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),它指的是在已經(jīng)預(yù)訓(xùn)練好的大型深度學(xué)習(xí)模型
    發(fā)表于 01-14 16:51

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    模型展示了強(qiáng)大的泛化能力,能夠?qū)⒃谀M環(huán)境學(xué)到的技能遷移到真實(shí)場(chǎng)景。RT-2的改進(jìn)版本更是引入了視覺(jué)-語(yǔ)言預(yù)訓(xùn)練技術(shù),使模型能夠理解更抽象的
    發(fā)表于 12-24 15:03

    KerasHub統(tǒng)一、全面的預(yù)訓(xùn)練模型庫(kù)

    深度學(xué)習(xí)領(lǐng)域正在迅速發(fā)展,在處理各種類型的任務(wù)中,預(yù)訓(xùn)練模型變得越來(lái)越重要。Keras 以其用戶友好型 API 和對(duì)易用性的重視而聞名,始終處于這一動(dòng)向的前沿。Keras 擁有專用的內(nèi)
    的頭像 發(fā)表于 12-20 10:32 ?489次閱讀

    什么是大模型、大模型是怎么訓(xùn)練出來(lái)的及大模型作用

    ,基礎(chǔ)模型。 ? 大模型是一個(gè)簡(jiǎn)稱,完整的叫法,應(yīng)該是“人工智能預(yù)訓(xùn)練模型”。預(yù)
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓(xùn)練</b>出來(lái)的及大<b class='flag-5'>模型</b>作用

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練AI大模型之前,需要明確自己的具體需求,比如是進(jìn)行自然語(yǔ)言處理、圖像識(shí)別、推薦系統(tǒng)還是其他任務(wù)。 二、數(shù)據(jù)收集與預(yù)處理 數(shù)據(jù)收集 根據(jù)任務(wù)
    的頭像 發(fā)表于 10-23 15:07 ?4910次閱讀

    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:預(yù)訓(xùn)練的基礎(chǔ)模型下的持續(xù)學(xué)習(xí)

    神經(jīng)網(wǎng)絡(luò),特別是預(yù)訓(xùn)練的基礎(chǔ)模型研究得到了廣泛的應(yīng)用,但其仍然主要依賴于在大量樣本上的批量式訓(xùn)練。本報(bào)告將探討實(shí)現(xiàn)模型的增量式
    的頭像 發(fā)表于 10-18 08:09 ?576次閱讀
    直播預(yù)約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的基礎(chǔ)<b class='flag-5'>模型</b>下的持續(xù)學(xué)習(xí)

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí),還包括對(duì)語(yǔ)言的深層次理解,如文化背景、語(yǔ)境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無(wú)標(biāo)簽文本數(shù)據(jù)上學(xué)習(xí)語(yǔ)
    發(fā)表于 08-02 11:03

    預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

    預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念,它們?cè)谔岣?b class='flag-5'>模型性能、減少訓(xùn)練時(shí)間和降低對(duì)數(shù)據(jù)量的需求方面發(fā)揮著關(guān)鍵作用。本文將從定義、原理、應(yīng)用、區(qū)別和聯(lián)系等方面詳細(xì)探討
    的頭像 發(fā)表于 07-11 10:12 ?2030次閱讀

    語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使
    的頭像 發(fā)表于 07-11 10:11 ?966次閱讀

    LLM預(yù)訓(xùn)練的基本概念、基本原理和主要優(yōu)勢(shì)

    在人工智能和自然語(yǔ)言處理(NLP)領(lǐng)域,大型語(yǔ)言模型(Large Language Model,簡(jiǎn)稱LLM)的興起極大地推動(dòng)了技術(shù)的進(jìn)步和應(yīng)用的發(fā)展。LLM通過(guò)在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)
    的頭像 發(fā)表于 07-10 11:03 ?3214次閱讀