一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

小米在行業(yè)圖譜上的探索

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:深度學(xué)習(xí)自然語(yǔ)言 ? 2020-11-24 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀:小米知識(shí)圖譜于2017年創(chuàng)立,已支持公司了每天億級(jí)的訪問(wèn),已賦能小愛(ài)同學(xué),小米有品、智能問(wèn)答、用戶畫(huà)像、虛擬助手、智能客服等互聯(lián)網(wǎng)產(chǎn)品。通過(guò)引入知識(shí)圖譜,這些產(chǎn)品在內(nèi)容理解、用戶理解、實(shí)體推薦等方面都有了顯著的效果提升。本文的主要內(nèi)容包括:

小米知識(shí)圖譜介紹:包括小米的商業(yè)模式、小米人工智能部、知識(shí)圖譜在人工智能部的定位、小米知識(shí)圖譜的發(fā)展歷程、以及小米知識(shí)圖譜的落地場(chǎng)景。

小米知識(shí)圖譜關(guān)鍵技術(shù):小米知識(shí)圖譜在成長(zhǎng)過(guò)程中的技術(shù)積累。

小米行業(yè)知識(shí)圖譜探索:結(jié)合業(yè)務(wù),跟大家分享下小米在行業(yè)圖譜上的探索。

01小米知識(shí)圖譜介紹

1.小米知識(shí)圖譜介紹

在了解小米知識(shí)圖譜之前,先介紹下小米的商業(yè)模式。小米在商業(yè)模式上提出硬件+新零售+互聯(lián)網(wǎng)鐵人三項(xiàng)的商業(yè)模式。這種商業(yè)模式下有像手機(jī)、小米音箱類(lèi)的智能硬件;有米商城,有品電商這樣的新零售;還有像人工智能這樣的互聯(lián)網(wǎng)服務(wù)。三者相扶相持,相互促進(jìn),是一種閉環(huán)的生態(tài)模式,在這種生態(tài)模式下,有很多潛在的應(yīng)用場(chǎng)景,對(duì)人工智能,對(duì)內(nèi)容和知識(shí)有很多訴求。

小米人工智能部已經(jīng)構(gòu)建了完整的中臺(tái)體系,囊括了視覺(jué)、NLP、知識(shí)圖譜、語(yǔ)音、深度學(xué)習(xí)等底層的基礎(chǔ)能力,其中知識(shí)圖譜就處于這一層。

中間層是問(wèn)答服務(wù)、智能客服等應(yīng)用能力層,上層是小愛(ài)同學(xué)、商城等互聯(lián)網(wǎng)業(yè)務(wù)和傳統(tǒng)業(yè)務(wù)層,這些都是知識(shí)圖譜的落地場(chǎng)景,其中小愛(ài)同學(xué)是小米公司推出的虛擬人工的智能助理,小愛(ài)同學(xué)適用于手機(jī)、音響、電視、手表以及手環(huán)等穿戴設(shè)備,通過(guò)搭載小愛(ài)同學(xué)的智能硬件,可以滿足用戶獲取知識(shí)和信息的需求。

小米知識(shí)圖譜在中臺(tái)體系下不斷的成長(zhǎng),2017年小米知識(shí)圖譜有了一些開(kāi)放知識(shí)的積累, 2018年知識(shí)圖譜團(tuán)隊(duì)成立,2018年底,通用知識(shí)圖譜的構(gòu)建,百科類(lèi)圖譜構(gòu)建完成,2019年中,業(yè)務(wù)拓展,線上調(diào)用達(dá)到近億次,2019年底,知識(shí)擴(kuò)增,知識(shí)積累了超三百億,2020年行業(yè)探索,行業(yè)圖譜落地。雖然發(fā)展的比較晚,但是在自己的業(yè)務(wù)場(chǎng)景下,發(fā)展還算迅速。

小米知識(shí)圖譜在公司的職責(zé),主要是研究開(kāi)放領(lǐng)域和行業(yè)領(lǐng)域的構(gòu)建和應(yīng)用技術(shù),并把圖譜推廣到相關(guān)業(yè)務(wù)場(chǎng)景上,來(lái)提高用戶的滿意度的和業(yè)務(wù)變現(xiàn)轉(zhuǎn)化能力。團(tuán)隊(duì)已構(gòu)建超三百億開(kāi)放知識(shí)和涉及13個(gè)領(lǐng)域。除此之外,小米還參與了一些開(kāi)放知識(shí)圖譜的構(gòu)建,是OpenKG之OpenBase子項(xiàng)目組主要成員單位,是IEEE知識(shí)圖譜國(guó)家標(biāo)準(zhǔn)編制組主要成員。

小米知識(shí)圖譜已經(jīng)已經(jīng)賦能公司10+個(gè)業(yè)務(wù)場(chǎng)景,這些落地場(chǎng)景包括智能問(wèn)答、智能客服、小愛(ài)同學(xué)、虛擬助手、全局搜索、NLP等這樣通用的知識(shí)領(lǐng)域。還有像游戲中心、廣告,小米有品,小米網(wǎng)等這樣的行業(yè)知識(shí),下面我會(huì)重點(diǎn)介紹一下具體場(chǎng)景的細(xì)節(jié)。

2. 應(yīng)用場(chǎng)景:智能問(wèn)答

第一個(gè)是小米知識(shí)圖譜在智能問(wèn)答場(chǎng)景的應(yīng)用,這個(gè)比較廣泛,落地的設(shè)備較多,已服務(wù)于手機(jī)、音響、智能穿戴、智能車(chē)載、電視、兒童設(shè)備。應(yīng)用于小愛(ài)音響、小愛(ài)同學(xué)、小尋手表、車(chē)載設(shè)備等,滿足用戶近億次/天的請(qǐng)求,后面我們介紹落地場(chǎng)景的示例。

目前,智能問(wèn)答包括兩種模式:一種是一般問(wèn)答模式,還有一種是規(guī)則推理的。一般問(wèn)答場(chǎng)景下,在返回具體答案的同時(shí),還會(huì)把關(guān)聯(lián)實(shí)體的附加信息滿足給用戶,比如用戶詢問(wèn)鞏俐的籍貫的時(shí)候,返回答案不只是會(huì)返回山東濟(jì)南,還會(huì)把問(wèn)答實(shí)體鞏俐的視頻,人物關(guān)系,資訊新聞,代表作品等都呈現(xiàn)給用戶,這樣在用戶興趣激發(fā)上起到了很大作用。另外一個(gè)古詩(shī)詞CASE,也能很好的體現(xiàn)這一點(diǎn),比如用戶問(wèn)靜夜思的作者是誰(shuí),用戶除了想得到這首詩(shī)的作者外,可能還想溫故這首詩(shī),也可能想要了解這首詩(shī)的釋義。所以我們會(huì)把有聲資源、釋義一并滿足給用戶。

最后,問(wèn)答在歧義場(chǎng)景下還支持列表形式展現(xiàn)。

除了一般的問(wèn)答方式以外,小米還支持推理的問(wèn)答。比如:多條件推理,多跳關(guān)系推理,還支持像求最大值,最小值這種基礎(chǔ)推理算子。多條件推理的例子如:山東籍的雙子座是誰(shuí),首先會(huì)對(duì)數(shù)據(jù)庫(kù)中人物實(shí)體的生日推理出星座是雙子座,然后推出省份,最后篩選聚合產(chǎn)出實(shí)體結(jié)果 ,第二種是多跳關(guān)系推理,比較典型的就是人物與人物的六度關(guān)系推理,如:徐志摩與梁思成的兒子梁從誡是什么關(guān)系?我們會(huì)試圖計(jì)算起始實(shí)體到目標(biāo)實(shí)體的關(guān)系的最短可達(dá)路徑呈現(xiàn)給用戶?,F(xiàn)有的推理邏方法,比如說(shuō)基于規(guī)則的推理、基于模型的推理,規(guī)則推理主要包含規(guī)則引擎和一階的邏輯規(guī)則。模型推理是用機(jī)器學(xué)習(xí)去表示學(xué)習(xí)關(guān)系推理。所以這里根據(jù)自己的需求、應(yīng)用場(chǎng)景和應(yīng)用情況去選擇。

后面介紹一些基于智能問(wèn)答的一些方法?;趫D譜的智能問(wèn)答,通用流程如下:語(yǔ)音識(shí)別環(huán)節(jié),意圖識(shí)別,實(shí)體匹配,實(shí)體查詢返回結(jié)果。

舉個(gè)例子,如武漢大學(xué)周邊什么好吃的,首先做分詞或者詞法分析,分出武漢大學(xué)和好吃的這些關(guān)鍵mention,然后意圖識(shí)別計(jì)算得到是美食需求的,第三步是實(shí)體識(shí)別,把mention武漢大學(xué)映射到知識(shí)圖譜中的實(shí)體上,把屬性好吃映射成推薦食物,最后實(shí)體查詢計(jì)算,返回?zé)岣擅妫洳~(yú),豆皮,油燜大蝦。

小米基于知識(shí)問(wèn)答有很多方法,第一種是基于模版的方法,它的大體流程是這樣的:

第一步對(duì)query做實(shí)體鏈接(實(shí)體鏈接技術(shù)在第二部分會(huì)詳細(xì)介紹),第二步把實(shí)體名用實(shí)體鏈接后的主實(shí)體對(duì)應(yīng)的實(shí)體類(lèi)型替換后去離線的模板庫(kù)匹配,返回模板庫(kù)中映射后的歸一的模版,最后查詢實(shí)體庫(kù)返回答案。

舉個(gè)例子:

姚明的老婆是誰(shuí),第一步先做實(shí)體鏈接,后面把姚明的實(shí)體類(lèi)型人物替換姚明,去人物垂域模板規(guī)則庫(kù)查詢模板,發(fā)現(xiàn)命中了lambda_x.配偶這個(gè)模板。最后在圖譜數(shù)據(jù)國(guó)查詢姚明的配偶,返回答案葉莉。這種方法有一個(gè)好處就是準(zhǔn)確率比較好,是離線挖掘的模板,所以性能也比較好,但是缺點(diǎn)也比較明顯泛化能力差。其中模板的挖掘方法的話,主要是離線從知識(shí)圖譜中實(shí)體中找目標(biāo)實(shí)體對(duì),然后去問(wèn)答論壇去匹配問(wèn)題與答案分別出現(xiàn)的pair,生成模板的pair,這么做會(huì)有很多噪聲需要做進(jìn)一步過(guò)濾,比如:需要過(guò)濾掉出現(xiàn)多屬性的問(wèn)答對(duì)的情況和頻次出現(xiàn)比較低的情況。

為了解決第一種方法泛化性能比較差的問(wèn)題,用第二種方式基于槽填充的方式來(lái)互補(bǔ)。第一種方法在李白有哪些詩(shī)的時(shí)候,可以命中模版庫(kù)滿足用戶的需求。但是變成李白有名的詩(shī)有哪些時(shí),就無(wú)法找到答案了。為了解決這種問(wèn)題,我們用了槽填充和意圖識(shí)別聯(lián)合學(xué)習(xí)的方法方法,借鑒了2016年liu的基于attention的意圖檢測(cè)和插槽填充聯(lián)合學(xué)習(xí)的的方法。該方法把槽填充與意圖識(shí)別聯(lián)合的學(xué)習(xí),方法包含兩部分槽填充和意圖識(shí)別,兩部分組成,第一部分是槽填充問(wèn)題轉(zhuǎn)化為序列標(biāo)注的NER問(wèn)題,第二步是意圖識(shí)別,把意圖識(shí)別轉(zhuǎn)換為文本分類(lèi)問(wèn)題。最后把兩個(gè)問(wèn)題整合做一個(gè)聯(lián)合學(xué)習(xí)。PPT右下角已給出論文和代碼。該方法在部分垂哉上的召回的提升比較明顯。在菜譜,古詩(shī)垂域上欠召回的badcase解決率為30%

第三種方法是基于子圖檢索,該方法依賴于實(shí)體的關(guān)系路徑。具體第一步query做實(shí)體鏈接,把實(shí)體轉(zhuǎn)化為實(shí)體ID,第二步根據(jù)實(shí)體周?chē)膶傩院Y選出候選路徑。第三步對(duì)輸入文本與候選路徑進(jìn)行實(shí)體語(yǔ)義相似和排序,取top結(jié)果。

以姚明老婆的國(guó)籍是啥為例子,第一步用實(shí)體鏈接找到用到接接到知識(shí)圖譜姚明這個(gè)實(shí)體;第二步就是找到姚明這個(gè)實(shí)體周邊的候選的屬性路徑,如姚明的配偶的國(guó)籍,姚明配偶的身高,姚明配偶的類(lèi)型,姚明教練的出生日期,姚明隊(duì)友的出生地等;第三步用bert計(jì)算候選路徑和目標(biāo)路徑的相似關(guān)系,除了相似度外,引入了像類(lèi)型過(guò)濾這樣的條件約束,過(guò)濾給出排序分值然后取一個(gè)最大值。

以上都是基于圖譜的結(jié)構(gòu)化的問(wèn)答場(chǎng)景,對(duì)于非結(jié)構(gòu)的, 比如:天空為什么是藍(lán)色的,怎么控制貓的飲食量,青蛙王子是不是安徒生的童話,這三種為什么,怎么樣,是不是,類(lèi)型的問(wèn)題,以上方法無(wú)法解決,需要通過(guò)基于搜索的FAQ的方式,這里就不介紹了。

3. 應(yīng)用場(chǎng)景:智能客服

第二個(gè)是知識(shí)圖譜到智能客服的場(chǎng)景。目前智能客服已經(jīng)落地小米網(wǎng)和小米金融等業(yè)務(wù)場(chǎng)景下。PPT中是智能客服團(tuán)隊(duì)用NL2SQL的方法在基金客服上的一個(gè)落地場(chǎng)景。

知識(shí)圖譜在智能客服中的技術(shù)框圖體系,第一層是數(shù)據(jù)標(biāo)準(zhǔn)化層,主要包括數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)治理,數(shù)據(jù)融合,第二層是AI引擎層,有實(shí)體抽取引擎,屬性集合引擎、知識(shí)圖譜引擎等,第三層是數(shù)據(jù)共享交換層,第四層是數(shù)據(jù)服務(wù),數(shù)據(jù)分析等。

4. 應(yīng)用場(chǎng)景:小米商城&游戲中心

第三個(gè)應(yīng)用場(chǎng)景是在小米商城和游戲中心的應(yīng)用,目前商品圖譜和游戲圖譜已應(yīng)用到小米商城,有品商城,游戲中心等業(yè)務(wù)下。已落在有品商城/小米商城的場(chǎng)景詞搜索發(fā)現(xiàn)、用戶sug引導(dǎo)、商品評(píng)價(jià)的用戶觀點(diǎn)的的用戶觀點(diǎn)的抽取及聚合,及游戲的評(píng)論的觀點(diǎn)抽取及聚合業(yè)務(wù)上。在小米的商品圖譜取得不錯(cuò)的效果,已助力商品轉(zhuǎn)化率、用戶購(gòu)買(mǎi)轉(zhuǎn)化率及游戲下載率至少有30%的提升。

5. 應(yīng)用場(chǎng)景:AI虛擬助手

另外小米知識(shí)圖譜還在多模態(tài)圖譜應(yīng)用場(chǎng)景下做了嘗試,與AI虛擬助手合作探索了圖片態(tài)與文本態(tài)實(shí)體語(yǔ)義關(guān)聯(lián),目前已上線植物識(shí)圖的功能,后面會(huì)持續(xù)的擴(kuò)展。小米知識(shí)圖譜的落地場(chǎng)景很多,這里只介紹了一部分,后面是小米知識(shí)圖譜積累的一些關(guān)鍵技術(shù)。

02小米知識(shí)圖譜關(guān)鍵技術(shù)

1.小米知識(shí)圖譜賦能各業(yè)務(wù)場(chǎng)景

目前小米知識(shí)圖譜已經(jīng)具備20+關(guān)鍵能力,比如實(shí)體鏈接,實(shí)體融合,概念圖譜,實(shí)體推理,實(shí)體分類(lèi),知識(shí)理解,實(shí)體關(guān)聯(lián),用戶理解等等,后面挑出實(shí)體鏈接,實(shí)體融合,概念圖譜挖掘三個(gè)關(guān)鍵技術(shù)和大家分享探討。

2. 關(guān)鍵技術(shù):實(shí)體鏈接

實(shí)體鏈接 ( Entity Linking ),也叫實(shí)體鏈指,該任務(wù)要求我們將非結(jié)構(gòu)化數(shù)據(jù)中的表示實(shí)體的詞語(yǔ)(即所謂mention,對(duì)某個(gè)實(shí)體的指稱項(xiàng))識(shí)別出來(lái),并將從知識(shí)庫(kù) ( 領(lǐng)域詞庫(kù),知識(shí)圖譜等 ) 中找到mention所表示的那一個(gè)實(shí)體所以實(shí)體鏈接的任務(wù)定義:就是給定文本mention,判定指代知識(shí)圖譜中的實(shí)體首先第一個(gè)是實(shí)體鏈接 ( Entity Linking )。

舉個(gè)例子:

比如說(shuō)劉德華的天下無(wú)賊主題曲那一天是誰(shuí)唱的,實(shí)體鏈接需要把劉德華,天下無(wú)賊,那一天三個(gè)mention聯(lián)接到知識(shí)圖譜的實(shí)體上。以方便應(yīng)用到如主題分析,語(yǔ)義的信息檢索等更深度的應(yīng)用場(chǎng)景下。

常見(jiàn)的實(shí)體鏈接如PPT流程。包括中文的切詞,命名實(shí)體識(shí)別,候選實(shí)體選取,實(shí)體消歧,實(shí)體排序,判空幾部分。第一步中文切詞有很多方法,比如像結(jié)巴等一些開(kāi)源的工具,我們的做法是整合了已有的實(shí)體名、實(shí)體同義詞名,及開(kāi)放錨文本信息做為詞典,用維特比算法構(gòu)造了切詞功能。除了切詞外我們還用的序列標(biāo)注的方式做了命名實(shí)體識(shí)別,把實(shí)體詞表與NER的結(jié)果合并。

其中NER用的是BERT+CRF。在NER的訓(xùn)練數(shù)據(jù)集構(gòu)造上,起初用遠(yuǎn)程監(jiān)督的方法構(gòu)造訓(xùn)練集的方法,但是發(fā)現(xiàn)在句子中有多個(gè)實(shí)體詞的情況,遠(yuǎn)程監(jiān)督的方式只能標(biāo)注出部分實(shí)體詞,這樣對(duì)模型的召回影響比較大。所以我們利用開(kāi)放比賽的標(biāo)注數(shù)據(jù)作為數(shù)據(jù)集,再加上部分遠(yuǎn)程監(jiān)督的數(shù)據(jù)和人工標(biāo)注的數(shù)據(jù)作為最終的訓(xùn)練樣本。這種方式的訓(xùn)練結(jié)果比只有遠(yuǎn)程監(jiān)督的樣本訓(xùn)練的結(jié)果提升10個(gè)點(diǎn)左右。

接下來(lái)第二步是候選實(shí)體選取,我們離線挖掘了大量的同義詞,別名,縮寫(xiě)詞等,放在圖譜實(shí)體。命中l(wèi)abel,alias,同義詞,縮寫(xiě)的作為候選對(duì)象。但是調(diào)研中發(fā)現(xiàn)過(guò)多的候選詞不一定有好的效果,比如:長(zhǎng)尾的,互動(dòng)比較少、豐富度比較少的實(shí)體引入會(huì)造成很多噪聲并且很影響處理性能。因此我們利用用戶使用的熱度,實(shí)體的流行度,實(shí)體豐富度等對(duì)候選實(shí)體做了篩選和過(guò)濾。精簡(jiǎn)后準(zhǔn)確率提升了3%,召回下降0.4%,預(yù)測(cè)速度提升50%。

接下來(lái)是實(shí)體消歧,實(shí)體排序,判空這三塊。這三塊不好解耦,所以可以一塊來(lái)說(shuō)。這里用到了兩處種特征,第一種是上下文無(wú)關(guān)的,第二種是語(yǔ)義相關(guān)聯(lián)的特征。

上下文無(wú)關(guān)的特征包含:實(shí)體流行度,用戶熱度,實(shí)體豐富度等等。語(yǔ)義相關(guān)的特征包括三部分:

① 對(duì)輸入實(shí)體mention預(yù)測(cè)實(shí)體類(lèi)型, 用到的18年Raiman, J. R., & Raiman, O. M.發(fā)表的"DeepType:用神經(jīng)網(wǎng)的分類(lèi)系統(tǒng)演化來(lái)做多語(yǔ)言實(shí)體鏈鏈接"的方法,該方法基于當(dāng)我們知道了候選實(shí)體的類(lèi)型之后,這個(gè)消歧的任務(wù)便被解決得差不多了的假設(shè)將實(shí)體鏈接過(guò)程看成是分類(lèi)獲取的過(guò)程。分類(lèi)的過(guò)程是針對(duì)知識(shí)庫(kù)中的分類(lèi)體系設(shè)計(jì)了一個(gè)DeepType的預(yù)測(cè)系統(tǒng)。具體是用輸入數(shù)據(jù)文本通過(guò)bert編碼取CLS 位置的向量、候選實(shí)體對(duì)應(yīng)開(kāi)始和結(jié)束位置對(duì)應(yīng)的特征向量,三個(gè)向量連接,經(jīng)過(guò)全連接層,最后softmax激活得到候選實(shí)體的類(lèi)別得到分類(lèi)。

② 是DeepMatch部分,參照18年 Le, P., & Titov, I的一種通過(guò)候選實(shí)體與mention之間的潛在關(guān)系建模來(lái)提升實(shí)體鏈接的效果。該文章提出了將實(shí)體鏈接問(wèn)題轉(zhuǎn)化為文本語(yǔ)義匹配問(wèn)題,構(gòu)建了一個(gè)DeepMatch模型來(lái)匹配輸入語(yǔ)句的上下文和候選實(shí)體的描述信息對(duì)。把待消歧文本作為text_a,每個(gè)候選實(shí)體的SPO全部連接起來(lái)組成一段文本text_b,計(jì)算text_a和text_b的相關(guān)性 。訓(xùn)練時(shí)選取連接到的實(shí)體作為正例,在候選實(shí)體里選取負(fù)例。兩個(gè)句子長(zhǎng)度最大選取為256,負(fù)樣本選取了3個(gè)。取CLS 位置向量、候選實(shí)體對(duì)應(yīng)開(kāi)始和結(jié)束位置對(duì)應(yīng)的特征向量,三個(gè)向量連接經(jīng)過(guò)全連接層,最后sigmoid激活得到候選實(shí)體的概率得分。

③ 除了這兩個(gè)特征外還有共現(xiàn)、協(xié)同推斷等特征。最后把是否存在多個(gè)同義詞指向同一個(gè)實(shí)體、其他mention是否出現(xiàn)在該實(shí)體的信息里、LinkCount、DeepMatch模型的相似度、DeepType模型的相似度等經(jīng)過(guò)MLP得到一個(gè)分值,排序取 top1的實(shí)體,如果top1的分值大于閾值就判定該實(shí)體,如果小于閾值則為空。

小米知識(shí)圖譜通過(guò)該方法參加了2020CCKS比賽,很榮幸拿到了總決賽的第一名,F(xiàn)1的值達(dá)到了0.8954。但是這種方法在我的業(yè)務(wù)場(chǎng)景,準(zhǔn)確率召回可以達(dá)到96%以上。

另外,除了效果,這里在業(yè)務(wù)上有會(huì)有處理性能的問(wèn)題,所以這里用到三種方法加速,第一是引用了tensorflow的batching serving,第二是把bert中的transformer 用nvidia的faster Transformer替換,第三是用Fp16的方法量化,這種加速效果比較明顯的QPS從30提升到1200。

3. 關(guān)鍵技術(shù):知識(shí)融合

第二種關(guān)鍵技術(shù),是知識(shí)融合,該任務(wù)的定義是,給定實(shí)體集合,識(shí)別并合并等價(jià)實(shí)體 ( 注:等價(jià)定義為待融實(shí)體指代了現(xiàn)實(shí)世界中同一事物或概念 ) 。舉這個(gè)例子,花木蘭電影有來(lái)自騰訊,愛(ài)奇藝,優(yōu)酷,豆瓣,電視貓, 維基的數(shù)據(jù)。需要把實(shí)體化后的小實(shí)體,找到歸一組,合并融合生成新的實(shí)體,更新至知識(shí)庫(kù)圖譜中這一過(guò)程中稱為知識(shí)融合。

基于任務(wù)定義,把這種任務(wù),拆解成了實(shí)體對(duì)齊和實(shí)體擇優(yōu)兩部分。

實(shí)體對(duì)齊的方法目前包含成對(duì)的實(shí)體對(duì)齊,集體實(shí)體對(duì)齊,大規(guī)模集體實(shí)體對(duì)齊及知識(shí)庫(kù)與知識(shí)庫(kù)之間的模式層的實(shí)體對(duì)齊。小米著重做的是成對(duì)對(duì)齊,現(xiàn)在用了就兩種的方法:

第一種方法是傳統(tǒng)的方法,基于觀察的先驗(yàn),比如:

① 類(lèi)別間的屬性重要度是不同的 ( 比如人物中,出生時(shí)間,出生地點(diǎn),性別,職業(yè)很重要;地點(diǎn)類(lèi)的,經(jīng)度,緯度很重要;視頻: 上映時(shí)間,演員,導(dǎo)演,角色很重要;生物:種屬科目綱很重要等 )。

② 文本中的時(shí)間,地點(diǎn)很重要,( 比如一些infoxbox中未覆蓋的事件的時(shí)間及地點(diǎn)等 ) 基于這兩個(gè)經(jīng)驗(yàn),我用一些tfidf的方法計(jì)算一些屬性在不同類(lèi)中的重要性,并找文本中的時(shí)間/地點(diǎn)做為一個(gè)重要的文本特征,并計(jì)算對(duì)應(yīng)屬性值相似度,目前用對(duì)一些相似度主要是一基于字粒度的文文相似度,及token粒度的主題相似度等。

第二種方法用基于embedding的deep Match方法,主要參照了2018年ACM SIGMOD 的方法做了一些改進(jìn),該方法把實(shí)體中的每個(gè)屬性下的O的Value concate成一個(gè)句子,通過(guò)雙向LSTM等一模型encodeing成向量,計(jì)算每個(gè)屬性下的emdming的相似度,最后經(jīng)過(guò)一個(gè)分類(lèi)模型,判斷是否是同一個(gè)實(shí)體。該方法沒(méi)有考慮類(lèi)別中的屬性重要度的差異,所以準(zhǔn)確與召回效果都不太理想,我們也在考慮更多的方法嘗試改進(jìn)。

以上兩種方法是針對(duì)對(duì)于結(jié)構(gòu)化實(shí)體對(duì)齊的方法,如果是開(kāi)放文本要依賴實(shí)體鏈接技術(shù)。

知識(shí)融合第二部實(shí)體擇優(yōu),是在經(jīng)過(guò)實(shí)體對(duì)齊后,把實(shí)體屬性的差異性或者沖突性做消解。目前的做法基于以下幾個(gè)方面對(duì)實(shí)體的質(zhì)量進(jìn)行控制控制:

實(shí)體的更新時(shí)效性

權(quán)威性,不同來(lái)源,權(quán)威性不同的,比如,人民網(wǎng)的權(quán)威性要比一般咨詢類(lèi)的站會(huì)要高

豐富性,不同來(lái)源O的值缺失程度是不同的

共現(xiàn)頻次,當(dāng)多源有沖突時(shí),可以用投票的選出不同來(lái)源中出現(xiàn)最多的屬性

4. 關(guān)鍵技術(shù):概念圖譜

概念圖譜的概挖掘目前小米圖譜基本三種方式構(gòu)建。

第一種是在本體模式層構(gòu)建了分類(lèi)體系, 分類(lèi)體系參照了一些開(kāi)放的行業(yè)和分類(lèi)標(biāo)準(zhǔn),還參考了一些人工整理的行業(yè)的標(biāo)準(zhǔn)體系。

第二種是基于autophrase的方法,是實(shí)例層的ISA關(guān)系的挖掘,該方法是2017年一篇論文中采用海量文本挖掘的方法,該方法通過(guò)主要是用短語(yǔ)挖掘的方法來(lái)挖掘概念。這種方法需要滿足四個(gè)條件:

流行度:質(zhì)量短語(yǔ)應(yīng)該出現(xiàn)的頻率足夠高

一致性:token在高質(zhì)量短語(yǔ)中的搭配出現(xiàn)的概率明顯高于預(yù)期

信息性:短語(yǔ)可以表達(dá)一個(gè)特定的主題或概念

完備性:一個(gè)短語(yǔ)可以在特定的文檔上下文中解釋為一個(gè)完整的語(yǔ)義單元

這個(gè)模型的訓(xùn)練用實(shí)體的長(zhǎng)文本和內(nèi)容文本、遠(yuǎn)程的Wikipedia/cn_probase拿到的開(kāi)放的的高質(zhì)量的短語(yǔ)及根據(jù)不同領(lǐng)域標(biāo)注的高質(zhì)量的詞語(yǔ)三個(gè)輸入作為輸入語(yǔ)料。第二步用n_gram的候選篩選,出正樣本與負(fù)樣本,正樣本是N_grame頻率大于閾值和人工標(biāo)注的領(lǐng)域短語(yǔ)及人工cnproese匹配的高質(zhì)量短語(yǔ);剩余是負(fù)樣本。由于負(fù)樣本中摻雜大量的正樣本,所以后面是從負(fù)樣本中使用集成分類(lèi)器訓(xùn)練了多個(gè)基分器來(lái)從負(fù)樣本中強(qiáng)化出正樣本。為了保證概念短語(yǔ)的質(zhì)量,方法通過(guò)詞性分析過(guò)濾不符合語(yǔ)法的短語(yǔ)。

針對(duì)概念挖掘的第三種方法是基于序列標(biāo)注的方法。分為兩步。第一步做一個(gè)分類(lèi),針對(duì)實(shí)體長(zhǎng)文本描述進(jìn)行句子拆分,之后判斷 否有這個(gè)概念相關(guān)的一個(gè)實(shí)體詞。第二步使用Bert+BiLSTM+CRF的方式作序列標(biāo)注,標(biāo)注出SPO的值。

上面三種方法都是概念挖掘,對(duì)于實(shí)體與概念的關(guān)聯(lián),可以用實(shí)體分類(lèi)的方法把模式層的與實(shí)體掛接,用實(shí)體鏈接的方法把開(kāi)放詞中的短語(yǔ)與體掛接。

5. 關(guān)鍵技術(shù):自動(dòng)化構(gòu)建技術(shù)

除些之外呢,小米圖譜還在工程構(gòu)建已有了一套完成的自動(dòng)化構(gòu)建技術(shù),可以支持用戶定制,自動(dòng)實(shí)體化,自動(dòng)實(shí)體關(guān)系等。

03小米行業(yè)知識(shí)圖譜探索

小米知識(shí)圖譜的關(guān)鍵技術(shù)還有很多,我們?cè)谶@里只給大家介紹典型的幾個(gè)關(guān)鍵技術(shù),有興趣的話可以線下交流。最后我們看一下小米知識(shí)圖譜在行業(yè)的一些探索。

1. 商品圖譜

第一個(gè)業(yè)務(wù)場(chǎng)景的探索商品圖譜,主要的應(yīng)用場(chǎng)景是小米商城,小米品的搜索和推薦場(chǎng)景,目標(biāo)就是輔助電商平臺(tái)精準(zhǔn)的搜索。

現(xiàn)在商品圖譜已在商品分類(lèi)體系的建設(shè)、主商品詞提取、商品同義詞挖掘、上下位體系構(gòu)建、場(chǎng)景概念挖掘五個(gè)方向構(gòu)建完成。其中分類(lèi)體系是在模式層的構(gòu)建;主商品詞提取和商品同義詞挖掘用于精確匹配與召回;上下位體系結(jié)構(gòu)用于用戶推薦;場(chǎng)景概念挖掘用于搜索發(fā)現(xiàn)及場(chǎng)景推薦。

場(chǎng)景挖掘以泰國(guó)旅游為例,可以與沙灘鞋,電話卡,浮潛裝備等商品有關(guān)聯(lián),燒烤場(chǎng)景可能與燒烤架,木炭,食材等商品關(guān)聯(lián)。

目前商品圖譜已把這五個(gè)方向的數(shù)據(jù)和技術(shù)落地到小米商城,有品商城上。用戶轉(zhuǎn)化率和商品轉(zhuǎn)化率都有不錯(cuò)的提升。

2. 上位詞

上位詞挖掘的方法分為三部分:

第一部分是上位詞判定,用bert加上分類(lèi)模型從用戶日志的query中提取出來(lái)確識(shí)別是否是商品詞或者上位詞。第二部分通過(guò)層次化的分類(lèi)器,對(duì)挖掘到的上位詞合并到分類(lèi)體系中,這里用的了HMC的多分類(lèi)器。第三部分是把商品與上位詞關(guān)聯(lián),用商品名做texta, 上位詞做textb,把關(guān)聯(lián)問(wèn)題轉(zhuǎn)化為文本分類(lèi)問(wèn)題。

目前用這種方法挖掘出的上位詞,平均每個(gè)商品覆蓋10.5個(gè)上位詞。

3. 同義詞

商品圖譜涉及到的還有一個(gè)就是同義詞挖掘。我們是從商品標(biāo)題中抽取同義詞,在調(diào)研中發(fā)現(xiàn),很多商鋪為了盡可能多的命中搜索詞,會(huì)把可能多的把相同相近或者同義的詞堆砌到商品名中。所以基于這個(gè)假設(shè),我們把同義詞的挖掘,轉(zhuǎn)化為一個(gè)序列標(biāo)注問(wèn)題。

其中訓(xùn)練數(shù)據(jù)用人工標(biāo)注+ ( 通用圖譜+同義詞庫(kù) ) 遠(yuǎn)程數(shù)據(jù)作為訓(xùn)練樣本。商品title做為texta, 候選的詞做為textb最后標(biāo)注出BIOS。因?yàn)榈赇伋硕哑龅酵唐吠?,還會(huì)打包買(mǎi)一些東西,比如鍋盤(pán)墊與炒鍋蓋打包賣(mài),所以這樣做會(huì)有準(zhǔn)確的問(wèn)題。為了這種問(wèn)題,我用了以下三種方法去噪:

檢測(cè)上位關(guān)系是否沖突,鍋盤(pán)墊->餐具->餐墊,炒鍋蓋->鍋具->鍋蓋等

用詞向量相似度

用bert相似度計(jì)算分類(lèi)判斷是否同義

用三種方法過(guò)濾后我們的準(zhǔn)確率達(dá)到94%。

4. 金融圖譜

第二個(gè)行業(yè)落地場(chǎng)景,是客服團(tuán)隊(duì)金融圖譜在小米金融信貸及保險(xiǎn)等業(yè)務(wù)的應(yīng)用。我們就業(yè)務(wù)場(chǎng)景中的身份核實(shí)的子功能舉例:

碰撞識(shí)別主查核實(shí)多個(gè)用戶的公司地址是否為同一公司

關(guān)聯(lián)方探查,是判斷申請(qǐng)貸人與信息是否一致

后面就是金融知識(shí)圖譜的框圖:

除了商品及游戲及金融行業(yè)的應(yīng)用外,我們?cè)诟嗟男袠I(yè)圖譜的落地及更多的通用圖譜的應(yīng)用場(chǎng)景也在持續(xù)探索中。

04總結(jié)

簡(jiǎn)單總結(jié)下,小米知識(shí)圖譜已構(gòu)建超百億的知識(shí),落地10+的業(yè)務(wù)場(chǎng)景,擁有20+個(gè)技術(shù)能力,擁有成熟的自動(dòng)化構(gòu)建流程,小米知識(shí)圖譜已有多個(gè)行業(yè)知識(shí)圖譜落地。最后,歡迎大家體驗(yàn)/使用小愛(ài)同學(xué)等小米的產(chǎn)品,也歡迎大家吐槽!

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49008

    瀏覽量

    249313
  • 小米
    +關(guān)注

    關(guān)注

    70

    文章

    14471

    瀏覽量

    147261
  • 知識(shí)圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    8001

原文標(biāo)題:知識(shí)圖譜在小米的應(yīng)用與探索

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    中軟國(guó)際入選中國(guó)信通院AI Agent智能體產(chǎn)業(yè)圖譜1.0

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)《AI Agent智能體產(chǎn)業(yè)圖譜1.0》正式發(fā)布。該圖譜是國(guó)內(nèi)系統(tǒng)性梳理智能體產(chǎn)業(yè)生態(tài)的重要成果,聚焦“基礎(chǔ)底座、智能體平臺(tái)、場(chǎng)景智能體與行業(yè)智能體
    的頭像 發(fā)表于 07-14 14:55 ?299次閱讀

    以精密測(cè)量探索人類(lèi)未來(lái),優(yōu)可測(cè)邀您共赴六月行業(yè)盛會(huì)

    六月夏至,智測(cè)未來(lái)。優(yōu)可測(cè)將亮相多場(chǎng)行業(yè)盛會(huì)!誠(chéng)邀您共同探索精密測(cè)量&半導(dǎo)體檢測(cè)世界!
    的頭像 發(fā)表于 05-29 17:34 ?415次閱讀
    以精密測(cè)量<b class='flag-5'>探索</b>人類(lèi)未來(lái),優(yōu)可測(cè)邀您共赴六月<b class='flag-5'>行業(yè)</b>盛會(huì)

    華為加速Wi-Fi 7技術(shù)在行業(yè)場(chǎng)景的應(yīng)用

    華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025期間,華為面向中東中亞地區(qū)舉辦第三季“Imagine Wi-Fi 7 to Reality”創(chuàng)新應(yīng)用大賽頒獎(jiǎng)典禮,9位參賽者憑借Wi-Fi 7的應(yīng)用創(chuàng)新成果脫穎而出并獲獎(jiǎng)。會(huì)上,華為同步發(fā)布第四季賽事,并面向全球征集行業(yè)創(chuàng)新案例,加速Wi-Fi 7技術(shù)
    的頭像 發(fā)表于 05-21 16:09 ?392次閱讀

    東軟集團(tuán)入選中國(guó)央國(guó)企數(shù)字化平臺(tái)廠商圖譜

    2025年4月,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布《中國(guó)央國(guó)企數(shù)字化平臺(tái)廠商圖譜及領(lǐng)導(dǎo)者實(shí)踐》(Doc#CHC52296525,2025年3月)報(bào)告,深度剖析央國(guó)企數(shù)字化轉(zhuǎn)型趨勢(shì)、市場(chǎng)競(jìng)爭(zhēng)格局,梳理行業(yè)
    的頭像 發(fā)表于 04-18 16:15 ?344次閱讀

    HDJF-5A超聲波局部放電檢測(cè)儀使用時(shí)域信號(hào)波形與PRPD圖譜

    一、PRPD與PRPS圖譜的定義與核心差異?PRPD圖譜?(PhaseResolvedPartialDischarge)全稱為相位解析局部放電圖譜,以?工頻相位?(0°-360°)為橫坐標(biāo)、?放電幅
    的頭像 發(fā)表于 03-20 15:29 ?723次閱讀
    HDJF-5A超聲波局部放電檢測(cè)儀使用時(shí)域信號(hào)波形與PRPD<b class='flag-5'>圖譜</b>

    打破傳統(tǒng)!華為云 Flexus 數(shù)字人重塑教培行業(yè)的營(yíng)銷(xiāo)模式

    、教育培訓(xùn)等行業(yè),已經(jīng)有不少企業(yè)積極擁抱數(shù)字人技術(shù),通過(guò)打造分身數(shù)字人高效率輸出內(nèi)容,深刻改變了行業(yè)營(yíng)銷(xiāo)模式。 作為教培行業(yè)從業(yè)人員,在行業(yè)內(nèi)摸爬滾打多年,我深切體會(huì)到
    的頭像 發(fā)表于 03-10 10:37 ?1382次閱讀
    打破傳統(tǒng)!華為云 Flexus 數(shù)字人重塑教培<b class='flag-5'>行業(yè)</b>的營(yíng)銷(xiāo)模式

    光譜看譜鏡分析圖譜

    火電廠材質(zhì)分析看譜鏡圖譜
    發(fā)表于 12-06 15:02 ?0次下載

    請(qǐng)問(wèn)ADC的電源產(chǎn)生的噪聲為何會(huì)反應(yīng)在ADC輸出數(shù)據(jù)的頻譜上

    請(qǐng)問(wèn)ADC的電源產(chǎn)生的噪聲為何會(huì)反應(yīng)在ADC輸出數(shù)據(jù)的頻譜上,有沒(méi)有講這類(lèi)原理的書(shū)? 因?yàn)榭戳撕芏嗾撐?,只是給出了結(jié)論,沒(méi)有說(shuō)為什么。 求大家推薦一本書(shū),謝謝。
    發(fā)表于 12-05 08:09

    58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈圖譜

    大躍升 的先進(jìn)生產(chǎn)力。 58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈圖譜 01 元宇宙產(chǎn)業(yè)圖譜 02 算力產(chǎn)業(yè)圖譜 03 數(shù)商產(chǎn)業(yè)圖譜 04 人形機(jī)器人產(chǎn)業(yè)圖譜
    的頭像 發(fā)表于 11-09 10:16 ?968次閱讀
    58大新質(zhì)生產(chǎn)力產(chǎn)業(yè)鏈<b class='flag-5'>圖譜</b>

    TLV320AI3101在錄音播放出來(lái)的聲音頻譜上可以明顯看出有斷篇和失真破音,怎么解決?

    你好,我們現(xiàn)在錄音播放出來(lái)的聲音頻譜上可以明顯看出有斷篇和失真破音的問(wèn)題。在比較嘈雜的環(huán)境 錄音。 相關(guān)硬件接口如圖,問(wèn)題出在寄存器配置嗎?這方面是菜鳥(niǎo),請(qǐng)高手知道
    發(fā)表于 11-04 06:36

    芯盾時(shí)代再次入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜

    日前,嘶吼安全產(chǎn)業(yè)研究院正式發(fā)布《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》,涵蓋七大類(lèi)別,127個(gè)細(xì)分領(lǐng)域。同時(shí),嘶吼綜合技術(shù)創(chuàng)新、市場(chǎng)需求、行業(yè)發(fā)展三大因素,從127個(gè)細(xì)分領(lǐng)域中精選出了下一代防火墻、身份訪問(wèn)管理(IAM)、云原生安全、工控系統(tǒng)安全防護(hù)、車(chē)聯(lián)網(wǎng)安全等十大熱門(mén)領(lǐng)域。
    的頭像 發(fā)表于 08-28 09:37 ?764次閱讀

    重塑管道行業(yè)未來(lái):探索激光切管機(jī)的無(wú)限可能

    了前所未有的活力與智慧。今天,就讓我們一同揭開(kāi)激光切管機(jī)的神秘面紗,探索它如何以精準(zhǔn)、高效、靈活之姿,重塑管道行業(yè)的未來(lái)。一、精準(zhǔn)切割,定義新標(biāo)準(zhǔn)激光切管機(jī),顧名思義,
    的頭像 發(fā)表于 07-31 16:25 ?750次閱讀
    重塑管道<b class='flag-5'>行業(yè)</b>未來(lái):<b class='flag-5'>探索</b>激光切管機(jī)的無(wú)限可能

    革新未來(lái)智能版圖,神州數(shù)碼榮登IDC生成式AI圖譜

    6月19日,國(guó)際權(quán)威市場(chǎng)研究機(jī)構(gòu)IDC正式發(fā)布了《2024年第二季度生成式AI生態(tài)圖譜》,其中,神州數(shù)碼憑借在生成式AI領(lǐng)域的領(lǐng)先布局,以其深度整合算力、模型、知識(shí)與應(yīng)用的核心能力,成功占據(jù)生態(tài)圖譜
    的頭像 發(fā)表于 07-29 15:20 ?643次閱讀
    革新未來(lái)智能版圖,神州數(shù)碼榮登IDC生成式AI<b class='flag-5'>圖譜</b>

    萬(wàn)里紅入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》8個(gè)細(xì)分領(lǐng)域

    近日,國(guó)內(nèi)信息安全領(lǐng)域權(quán)威媒體嘶吼正式發(fā)布了《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》(以下簡(jiǎn)稱“網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜”)。本次網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜通過(guò)市場(chǎng)調(diào)研、數(shù)據(jù)精析、文獻(xiàn)研究及政策參考等多方面的綜合分析,全面
    的頭像 發(fā)表于 07-23 14:42 ?1573次閱讀
    萬(wàn)里紅入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)<b class='flag-5'>圖譜</b>》8個(gè)細(xì)分領(lǐng)域

    smartconfig android手機(jī)連接小米pro路由配網(wǎng)失敗怎么解決?

    iphone 配網(wǎng)可以成功連接iphone 可以成功連接其他路由器,并配網(wǎng)成功, 更換多個(gè)android 設(shè)備 都是均發(fā)生該問(wèn)題 路由是小米pro路由器連接的是2.4信號(hào)
    發(fā)表于 07-19 11:49