一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何利用大模型構(gòu)建知識(shí)圖譜?如何利用大模型操作結(jié)構(gòu)化數(shù)據(jù)?

jf_R6cs0Kjv ? 來(lái)源:NebulaGraph 技術(shù)社區(qū) ? 2023-08-24 16:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Part 01 利用大模型構(gòu)建知識(shí)圖譜

ad335578-425b-11ee-a2ef-92fbcf53809c.png

上圖是之前,我基于大語(yǔ)言模型構(gòu)建知識(shí)圖譜的成品圖,主要是將金融相關(guān)的股票、人物、漲跌幅之類的基金信息抽取出來(lái)。之前,我們要實(shí)現(xiàn)這種信息抽取的話,一般是用 Bert + NER 來(lái)實(shí)現(xiàn),要用到幾千個(gè)樣本,才能開發(fā)出一個(gè)效果相對(duì)不錯(cuò)的模型。而到了大語(yǔ)言模型時(shí)代,我們有了 few-shot 和 zero-shot 的能力

這里穿插下 few-shot 和 zero-shot 的簡(jiǎn)單介紹,前者是小樣本學(xué)習(xí),后者是零樣本學(xué)習(xí),模型借助推理能力,能對(duì)未見過(guò)的類別進(jìn)行分類。 因?yàn)榇笳Z(yǔ)言模型的這種特性,即便你不給模型輸入任何樣本,它都能將 n+ 做好,呈現(xiàn)一個(gè)不錯(cuò)的效果。如果你再給模型一定的例子,進(jìn)行學(xué)習(xí):

is_example={
'基金':[
{
'content':'4月21日,易方達(dá)基金公司明星基金經(jīng)理張坤在管的4只基金產(chǎn)品悉數(shù)發(fā)布了2023年年報(bào)'
'answers':{
'基金名稱':['易方達(dá)優(yōu)質(zhì)企業(yè)','易方達(dá)藍(lán)籌精選'],
'基金經(jīng)理':['張坤'],
'基金公司':['易方達(dá)基金公司'],
'基金規(guī)模':['889.42億元'],
'重倉(cāng)股':['五糧液','茅臺(tái)']
}
}
],
'股票':[
{
'content':'國(guó)聯(lián)證券04月23日發(fā)布研報(bào)稱,給予東方財(cái)富(300059.SZ,最新價(jià):17.03元)買入評(píng)級(jí)...'
'answers':{
'股票名稱':['東方財(cái)富'],
'董事長(zhǎng)':['其實(shí)'],
'漲跌幅':['原文中未提及']
}
}
]
}
就能達(dá)到上述的效果。有了大語(yǔ)言模型之后,用戶對(duì)數(shù)據(jù)的需求會(huì)減少很多,對(duì)大多數(shù)人而言,你不需要那么多預(yù)算去搞數(shù)據(jù)了,大語(yǔ)言模型就能實(shí)現(xiàn)數(shù)據(jù)的簡(jiǎn)單抽取,滿足你的業(yè)務(wù)基本需求,再輔助一些規(guī)則,就可以。 而這些大語(yǔ)言模型的能力,主要是大模型的 ICL(In-Context Learning)能力以及 prompt 構(gòu)建能力。

ICL 就是給定一定樣本,輸入的樣本越多,輸出的效果越好,但是這個(gè)能力受限于模型的最大 token 長(zhǎng)度,像是 ChatGLM-2,第一版本只有 2k 的輸入長(zhǎng)度。像是上面的這個(gè)示例,如果你的輸入特別多的話,可能很快就達(dá)到了這個(gè)模型可輸入的 token 上限。

當(dāng)然,現(xiàn)在有不少方法來(lái)提升這個(gè)輸入長(zhǎng)度的限制。比如,前段時(shí)間 Meta 更新的差值 ORp 方法,能將 2k 的 token 上限提升到 32k。在這種情況下,你的 prompt 工程可以非常完善,加入超多的限制條件和巨多的示例,達(dá)到更好的效果。

此外,進(jìn)階的大模型使用的話,你可以采用 LoRA 之類的微調(diào)方式,來(lái)強(qiáng)化效果。如果你有幾百個(gè),甚至上千個(gè)樣本,這時(shí)候輔助用個(gè) LoRA 做微調(diào),加一個(gè)類似 A100 的顯卡機(jī)器,就可以進(jìn)行相關(guān)的微調(diào)工作來(lái)強(qiáng)化效果。

Part 02 利用大模型操作結(jié)構(gòu)化數(shù)據(jù)

aeac31d6-425b-11ee-a2ef-92fbcf53809c.png

結(jié)構(gòu)化數(shù)據(jù)其實(shí)有非常多種類,像圖數(shù)據(jù)也是一種結(jié)構(gòu)化數(shù)據(jù),表數(shù)據(jù)也是一種結(jié)構(gòu)化數(shù)據(jù),還有像是 MongoDB 之類的文檔型數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)。Office 全家桶之前就在搞這塊的工作,有一篇相關(guān)論文講述了如何用大模型來(lái)操作 Sheet。

此外,還有一個(gè)相關(guān)工作是針對(duì) SQL 的。前兩年,有一個(gè)研究方向特別火,叫:Text2SQL,就是如何用自然語(yǔ)言去生成 SQL。

大家吭哧吭哧做了好幾年,對(duì)于單表的查詢這塊做得非常好。但是有一個(gè) SQL 困境,就是多表查詢?nèi)绾螌?shí)現(xiàn)?多表查詢,一方面是沒(méi)有相關(guān)數(shù)據(jù),本身多表查詢的例子就非常少,限制了模型提升;另一方面,多表查詢本身就難以學(xué)習(xí),學(xué)習(xí)條件會(huì)更加復(fù)雜。

而大語(yǔ)言模型出來(lái)之后,基于 GPT-4,或者是 PaLM 2 之類的模型,去訓(xùn)練一個(gè) SQL 版本的模型,效果會(huì)非常好。SQL-PaLM 操作數(shù)據(jù)庫(kù)的方式有兩種。一是在上下文學(xué)習(xí)(In-context learning), 也就是給模型一些例子,包括數(shù)據(jù)庫(kù)的 schema、自然語(yǔ)言的問(wèn)題和對(duì)應(yīng)的 SQL 語(yǔ)句,然后再問(wèn)幾個(gè)新問(wèn)題,要求模型輸出 SQL 語(yǔ)句。另一種方式是微調(diào)(fine-tuning),像是用 LoRA 或者是 P-tuning。

af0430ca-425b-11ee-a2ef-92fbcf53809c.png

上圖就是一個(gè)用 Prompt 工程來(lái)實(shí)現(xiàn) Text2SQL,事先先把表的 schema 告訴大模型,再提問(wèn),再拼成 SQL…按照這種方式給出多個(gè)示例之后,大模型生成的 SQL 語(yǔ)句效果會(huì)非常好。還有一種就是上面提到的微調(diào),將 schema 和 question 組合成樣本對(duì),讓大模型去學(xué)習(xí),這時(shí)候得到的效果會(huì)更好。具體可以看下 SQL-PaLM 這篇論文,參考文末延伸閱讀;

此外,還有更進(jìn)階的用法,和思為之前舉的例子有點(diǎn)相似,就是大模型和知識(shí)圖譜結(jié)合。

af0ceb3e-425b-11ee-a2ef-92fbcf53809c.png

比如說(shuō),我想問(wèn)“奧巴馬出生在哪個(gè)國(guó)家“,它就是構(gòu)建知識(shí)圖譜 KQs,再進(jìn)行一個(gè)召回,而召回有很多種方法,比如之前思為分享的 Llama Index 的向量召回,而向量召回最大的難點(diǎn)在于模型,像 OpenAI 提供的模型,效果會(huì)比較好,但是數(shù)據(jù)量大的時(shí)候,頻繁調(diào)用 OpenAI API 接口一方面涉及到隱私問(wèn)題,另一方面涉及到預(yù)算費(fèi)用問(wèn)題;而自己要訓(xùn)練一個(gè)模型,不僅難度大,由于數(shù)據(jù)量的原因,效果也不是很好。因此,如果你是借助 Llama Index 的向量模型進(jìn)行召回,可能需要輔助一些額外的關(guān)鍵詞模型,基于關(guān)鍵詞匹配來(lái)進(jìn)行召回,像是子圖召回之類的。

對(duì)應(yīng)到這個(gè)例子,系統(tǒng)需要識(shí)別出關(guān)鍵詞是 Obama 和 Country,關(guān)聯(lián)到美國(guó),再進(jìn)行召回。這樣處理之后,將相關(guān)的事實(shí) Retrieved Facts 喂給大模型,讓它輸出最終的結(jié)果。在 Retrieved Facts 部分(上圖藍(lán)色部分),輸入可能相對(duì)會(huì)比較長(zhǎng),在圖中可能是一個(gè)三元組,這樣就會(huì)相對(duì)比較簡(jiǎn)單。這里還會(huì)涉及到上面說(shuō)的 2k 輸入 token 提升問(wèn)題,還是一樣的通過(guò)一些微調(diào)手段來(lái)實(shí)現(xiàn)。

Part 03 大模型使用工具

下面就是本文的重頭戲——大模型的使用工具。什么是大模型工具?你可以理解為它是把一些復(fù)雜操作集成到一起,讓大模型做一個(gè)驅(qū)動(dòng)。

舉個(gè)例子,ChatGPT 剛出來(lái)的時(shí)候,會(huì)有人說(shuō)“給我點(diǎn)一個(gè)披薩”,這當(dāng)中就涉及到許多復(fù)雜的操作。

af68bbf8-425b-11ee-a2ef-92fbcf53809c.png

Data-Copilot 是浙大某個(gè)團(tuán)隊(duì)做的大模型工具,主要是做意圖識(shí)別和信息抽取。上圖右側(cè)是“輸入一句話,把相關(guān)的圖繪制出來(lái)”的效果展示,這里就要提取一句話中的關(guān)鍵詞信息,關(guān)鍵詞信息識(shí)別之后去對(duì)應(yīng)的數(shù)據(jù)庫(kù)中找對(duì)應(yīng)的數(shù)據(jù),找到數(shù)據(jù)之后進(jìn)行數(shù)據(jù)處理,最后再生成一個(gè)圖。這里并沒(méi)有用到圖數(shù)據(jù)庫(kù),而是直接基于 2Sheet 接口來(lái)實(shí)現(xiàn)的。

這里我們向這個(gè)模型提出一個(gè)需求“今年上證50指數(shù)的所有成分股的凈利潤(rùn)增長(zhǎng)率同比是多少”,這個(gè)模型會(huì)將其解析成對(duì)應(yīng)的一個(gè)個(gè)步驟進(jìn)行操作。上圖右側(cè)顯示了一共有 4 步:

Step1 解析關(guān)鍵指標(biāo);

Step2 提取相關(guān)數(shù)據(jù);

Step3 數(shù)據(jù)處理,整理成對(duì)應(yīng)格式;

Step4 繪制成圖;

而大模型是如何實(shí)現(xiàn)的呢?主要分為兩層,一方面你要設(shè)計(jì)一個(gè)接口調(diào)用,供 prompt 調(diào)用;另一方面準(zhǔn)備好底層數(shù)據(jù),它可能是在圖數(shù)據(jù)庫(kù)中,也可能在關(guān)系型數(shù)據(jù)庫(kù)中,給接口做承接之用。

afb03f28-425b-11ee-a2ef-92fbcf53809c.png

這個(gè)例子更加復(fù)雜,是想讓大模型來(lái)預(yù)測(cè)中國(guó)未來(lái)(下四個(gè)季度)的 GDP 增長(zhǎng)。這里看到它分成了三部分(上圖橙色部分):

Step1 拿到歷史數(shù)據(jù);

Step2 調(diào)用預(yù)測(cè)函數(shù),它可能是線性函數(shù),也可能是非線性函數(shù),也有可能是深度學(xué)習(xí)模型;

Step3 繪制成圖(上圖藍(lán)色部分);

一般來(lái)說(shuō),金融分析師做相關(guān)的金融數(shù)據(jù)分析的模型會(huì)相對(duì)統(tǒng)一,這種相對(duì)統(tǒng)一的模型我們用函數(shù)實(shí)現(xiàn)之后,就可以讓他的工作更加便捷:分析師只要說(shuō)一句話,圖就畫好。

Part 04 大模型的最終形態(tài)

上面展示的形態(tài),基本上人工痕跡還是很明顯的:prompt 要人為寫,數(shù)據(jù)接口也得人為寫。而我覺得它最終的形態(tài),可能同 GPT4 的形態(tài)有點(diǎn)相似,像是前段時(shí)間出的 Code Interpreter,代碼編譯器功能。你只用一句話,后面所有的功能都實(shí)現(xiàn)完了。

b152023a-425b-11ee-a2ef-92fbcf53809c.png

大概實(shí)現(xiàn)過(guò)程就是上圖所示的,用 LLM 作為接口,把整個(gè)百科、計(jì)算器、搜索、編譯器、知識(shí)圖譜等等接入進(jìn)來(lái),從而最終實(shí)現(xiàn)畫圖的功能。

而它的最終效果是怎么樣的呢?下面是國(guó)際友人在推特上 po 出的一張圖:

b1598e88-425b-11ee-a2ef-92fbcf53809c.png

就那么簡(jiǎn)單,你不需要額外地搞 API,就能實(shí)現(xiàn)一個(gè)功能。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    783

    瀏覽量

    45161
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16097
  • 數(shù)據(jù)存儲(chǔ)器

    關(guān)注

    1

    文章

    69

    瀏覽量

    17992
  • LoRa技術(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    102

    瀏覽量

    16924

原文標(biāo)題:LLM:大模型下的知識(shí)圖譜另類實(shí)踐

文章出處:【微信號(hào):智行RFID,微信公眾號(hào):智行RFID】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NLPIR大數(shù)據(jù)知識(shí)圖譜完美展現(xiàn)文本數(shù)據(jù)內(nèi)容

    )是基于自然語(yǔ)言理解、漢語(yǔ)詞法分析,采用KGB語(yǔ)法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類知識(shí),大數(shù)據(jù)語(yǔ)義智能分析與
    發(fā)表于 07-01 11:40

    KGB知識(shí)圖譜基于傳統(tǒng)知識(shí)工程的突破分析

    知識(shí)庫(kù)構(gòu)建主要依靠人工構(gòu)建、代價(jià)高昂、規(guī)模有限,投入極大且效率不高。同時(shí),傳統(tǒng)知識(shí)圖譜不具有深度知識(shí)結(jié)構(gòu),無(wú)法解決專業(yè)的業(yè)務(wù)問(wèn)題?;ヂ?lián)網(wǎng)時(shí)代
    發(fā)表于 10-22 15:25

    KGB知識(shí)圖譜技術(shù)能夠解決哪些行業(yè)痛點(diǎn)?

    中的文字信息。2. 知識(shí)抽?。篕GB知識(shí)圖譜引擎,可從結(jié)構(gòu)化表格與非結(jié)構(gòu)化文本中自適應(yīng)識(shí)別并抽取關(guān)鍵知識(shí)(主體、客體、時(shí)間、地點(diǎn)、金額、條款
    發(fā)表于 10-30 15:34

    知識(shí)圖譜的三種特性評(píng)析

    格式文件,保留文件中表格與文字格式等重要信息。對(duì)于圖片信息,OCR可自動(dòng)識(shí)別并抽取圖片中的文字信息。2. 知識(shí)抽?。篕GB知識(shí)圖譜引擎,可從結(jié)構(gòu)化表格與非結(jié)構(gòu)化文本中自適應(yīng)識(shí)別并抽取關(guān)
    發(fā)表于 12-13 13:57

    KGB知識(shí)圖譜幫助金融機(jī)構(gòu)進(jìn)行風(fēng)險(xiǎn)預(yù)判

    高風(fēng)險(xiǎn)事件,可以及時(shí)預(yù)測(cè)未來(lái)有潛在風(fēng)險(xiǎn)的關(guān)聯(lián)行業(yè),金融機(jī)構(gòu)從而可對(duì)相關(guān)行業(yè)的風(fēng)險(xiǎn)做出預(yù)判,盡早地發(fā)現(xiàn)并規(guī)避風(fēng)險(xiǎn)。在潛在風(fēng)險(xiǎn)客戶預(yù)測(cè)上,通過(guò)KGB知識(shí)圖譜整合和關(guān)聯(lián)企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化
    發(fā)表于 06-18 23:07

    KGB知識(shí)圖譜通過(guò)智能搜索提升金融行業(yè)分析能力

    的自然語(yǔ)言處理技術(shù),搭建專業(yè)領(lǐng)域深度知識(shí)圖譜,快速學(xué)習(xí)并迭代金融行業(yè)最新知識(shí),構(gòu)建一二級(jí)市場(chǎng)眾多實(shí)體模型,智能的理解用戶的搜索請(qǐng)求,使得搜
    發(fā)表于 06-22 21:23

    一種融合知識(shí)圖譜和協(xié)同過(guò)濾的混合推薦模型

    RCKC構(gòu)成。RCKD模型在獲取知識(shí)圖譜的推理路徑后,利用 Transe算法將路徑嵌入為向量,并使用LSTM和soft attention機(jī)制捕獲路徑推理的語(yǔ)義,通過(guò)池
    發(fā)表于 03-16 14:37 ?10次下載
    一種融合<b class='flag-5'>知識(shí)圖譜</b>和協(xié)同過(guò)濾的混合推薦<b class='flag-5'>模型</b>

    知識(shí)圖譜與訓(xùn)練模型相結(jié)合和命名實(shí)體識(shí)別的研究工作

    ,同時(shí)借助圖注意力模型知識(shí)圖譜結(jié)構(gòu)化信息反饋給語(yǔ)言模型,從而實(shí)現(xiàn)知識(shí)圖譜模型和語(yǔ)言
    的頭像 發(fā)表于 03-29 17:06 ?4761次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>與訓(xùn)練<b class='flag-5'>模型</b>相結(jié)合和命名實(shí)體識(shí)別的研究工作

    《無(wú)線電工程》—基于知識(shí)圖譜的直升機(jī)飛行指揮模型研究

    的直升機(jī)飛行指揮模型研究方法。使用知識(shí)圖譜生成和展現(xiàn)等技術(shù),對(duì)直升機(jī)飛行指揮專業(yè)領(lǐng)域的知識(shí)資源進(jìn)行了深入分析與整合。將有價(jià)值的數(shù)據(jù)資源提煉成知識(shí)圖譜
    發(fā)表于 11-16 10:51 ?1930次閱讀
    《無(wú)線電工程》—基于<b class='flag-5'>知識(shí)圖譜</b>的直升機(jī)飛行指揮<b class='flag-5'>模型</b>研究

    知識(shí)圖譜知識(shí)圖譜的典型應(yīng)用

    作者:?cooldream2009? 我們構(gòu)建知識(shí)圖譜的目的,在于利用知識(shí)圖譜來(lái)做一些事情。有效利用知識(shí)
    的頭像 發(fā)表于 10-18 09:26 ?2683次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>:<b class='flag-5'>知識(shí)圖譜</b>的典型應(yīng)用

    基于本體的金融知識(shí)圖譜自動(dòng)構(gòu)建技術(shù)

    本評(píng)測(cè)任務(wù)參考 TAC KBP 中的 Cold Start 評(píng)測(cè)任務(wù)的方案,圍繞金融研報(bào)知識(shí)圖譜的自動(dòng)圖譜構(gòu)建所展開。評(píng)測(cè)從預(yù)定義圖譜模式
    的頭像 發(fā)表于 11-24 14:54 ?1473次閱讀

    大型語(yǔ)言模型知識(shí)圖譜:機(jī)遇與挑戰(zhàn)

    這對(duì)知識(shí)表示領(lǐng)域來(lái)說(shuō)是一個(gè)巨大的步驟。長(zhǎng)時(shí)間以來(lái),人們關(guān)注的是明確的知識(shí),例如嵌入在文本中的知識(shí),有時(shí)也被稱為非結(jié)構(gòu)化數(shù)據(jù),以及以
    的頭像 發(fā)表于 08-24 14:50 ?1012次閱讀
    大型語(yǔ)言<b class='flag-5'>模型</b>與<b class='flag-5'>知識(shí)圖譜</b>:機(jī)遇與挑戰(zhàn)

    知識(shí)圖譜與大模型結(jié)合方法概述

    本文作者 |? 黃巍 《Unifying Large Language Models and Knowledge Graphs: A Roadmap》總結(jié)了大語(yǔ)言模型知識(shí)圖譜融合的三種路線:1
    的頭像 發(fā)表于 10-29 15:50 ?1584次閱讀
    <b class='flag-5'>知識(shí)圖譜</b>與大<b class='flag-5'>模型</b>結(jié)合方法概述

    利用知識(shí)圖譜與Llama-Index技術(shù)構(gòu)建模型驅(qū)動(dòng)的RAG系統(tǒng)(下)

    對(duì)于語(yǔ)言模型(LLM)幻覺,知識(shí)圖譜被證明優(yōu)于向量數(shù)據(jù)庫(kù)。知識(shí)圖譜提供更準(zhǔn)確、多樣、有趣、邏輯和一致的信息,減少了LLM中出現(xiàn)幻覺的可能性
    的頭像 發(fā)表于 02-22 14:13 ?1695次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>知識(shí)圖譜</b>與Llama-Index技術(shù)<b class='flag-5'>構(gòu)建</b>大<b class='flag-5'>模型</b>驅(qū)動(dòng)的RAG系統(tǒng)(下)

    知識(shí)圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識(shí)圖譜與大模型是兩個(gè)至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢(shì)和應(yīng)用場(chǎng)景,同時(shí)又相互補(bǔ)充,共同推動(dòng)著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識(shí)圖譜與大
    的頭像 發(fā)表于 07-10 11:39 ?2090次閱讀