一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

知識圖譜自動化構(gòu)建的探索與挑戰(zhàn)

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-09-05 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

知識圖譜自動化構(gòu)建的探索與挑戰(zhàn)|論文分享

達(dá)觀數(shù)據(jù)

知識圖譜的自動化構(gòu)建是知識圖譜中具有極強(qiáng)挑戰(zhàn)性且巨大應(yīng)用價值的技術(shù)方向。就實(shí)體抽取技術(shù),達(dá)觀數(shù)據(jù)副總裁、上海市人工智能技術(shù)標(biāo)準(zhǔn)委員會委員王文廣提到“狹義的實(shí)體抽取,即命名實(shí)體識別(NER)技術(shù)發(fā)展至今已較為成熟,能夠很好地抽取出人名、地名、機(jī)構(gòu)名等少數(shù)類型的實(shí)體。但在知識圖譜實(shí)際應(yīng)用中,則需要抽取出各式各樣各不相同的廣義實(shí)體,比如金融業(yè)中的產(chǎn)品名稱、品牌名、業(yè)務(wù)名、風(fēng)險提示、觀點(diǎn)等,制造業(yè)中的失效模式、失效現(xiàn)象、工藝、設(shè)備、零部件、物料、方法、故障原因、改善措施等,商業(yè)中的產(chǎn)品、功能、特點(diǎn)、適合人群、搭配方法等等。抽取出這些廣義實(shí)體的挑戰(zhàn)巨大。”關(guān)系抽取技術(shù)也同樣問題多挑戰(zhàn)大,已有關(guān)系抽取大多基于實(shí)體對之間共現(xiàn),而現(xiàn)實(shí)復(fù)雜的場景中,實(shí)體對共現(xiàn)既可能不存在任何關(guān)系,可能存在萬千種的關(guān)系,這就造成了關(guān)系抽取的難題。此外,在知識圖譜構(gòu)建中,還涉及實(shí)體消歧、實(shí)體融合等方面的技術(shù)要求。

除了技術(shù)發(fā)展本身并不成熟之外,在實(shí)際場景中還遇到樣本少的問題。在真實(shí)落地的項(xiàng)目或產(chǎn)品中, 往往存在標(biāo)注樣本少的問題,其原因即可能是標(biāo)注成本高導(dǎo)致樣本少,也可能是本身樣本就少,無法獲得大規(guī)模的標(biāo)注樣本。這方面王文廣深有體會,他提到“在很多場景下,總的文檔數(shù)量有幾千或幾萬份,對于具體某些類型的實(shí)體或關(guān)系來說則文檔數(shù)量更少。在這種情況下要做好知識圖譜的構(gòu)建,是極大的挑戰(zhàn),也是在實(shí)際落地中必須綜合使用十八般武器,逢山開路遇水搭橋,使用最新的技術(shù)結(jié)合業(yè)務(wù)經(jīng)驗(yàn)、專家規(guī)則等來解決這些問題。”

為了促進(jìn)知識圖譜自動化構(gòu)建技術(shù)的進(jìn)一步發(fā)展,達(dá)觀數(shù)據(jù)在CCKS2020(2020全國知識圖譜與語義計算大會)組織了金融研報知識圖譜的自動化構(gòu)建的算法競賽。競賽選擇了樣本豐富但復(fù)雜度較高的金融研報文檔作為知識的來源,根據(jù)金融投研領(lǐng)域常見的需求,設(shè)計了簡化版的知識圖譜模式,并標(biāo)注了大規(guī)模的金融研報知識圖譜數(shù)據(jù)集FR2KG。競賽任務(wù)從預(yù)定義的知識圖譜模式和少量的種子知識圖譜開始,從非結(jié)構(gòu)化的金融研報文本中抽取出符合知識圖譜模式的實(shí)體、關(guān)系和屬性值, 并進(jìn)行適當(dāng)?shù)膶?shí)體消歧和實(shí)體融合,構(gòu)建出知識圖譜,并使用FR2KG來評估競賽參賽隊(duì)伍所提交的結(jié)果。

金融研報是各類金融研究結(jié)構(gòu)對宏觀經(jīng)濟(jì)、金融、行業(yè)、產(chǎn)業(yè)鏈以及公司的研究報告,是金融行業(yè)中最為復(fù)雜、多樣的文檔。報告通常是專業(yè)人員撰寫,對宏觀、行業(yè)和公司的數(shù)據(jù)信息搜集全面、研究深入,質(zhì)量高,內(nèi)容可靠。報告內(nèi)容往往包含產(chǎn)業(yè)、經(jīng)濟(jì)、金融、政策、社會等多領(lǐng)域的數(shù)據(jù)與知識,是構(gòu)建行業(yè)知識圖譜非常關(guān)鍵的數(shù)據(jù)來源。另一方面,由于研報本身所容納的數(shù)據(jù)與知識涉及面廣泛,專業(yè)知識眾多,不同的研究結(jié)構(gòu)和專業(yè)認(rèn)識對相同的內(nèi)容的表達(dá)方式也會略有差異。這些特點(diǎn)導(dǎo)致了從研報自動化構(gòu)建知識圖譜困難重重,解決這些問題則能夠極大促進(jìn)自動化構(gòu)建知識圖譜方面的技術(shù)進(jìn)步。同時所構(gòu)建的圖譜在大金融行業(yè)、監(jiān)管部門、政府、行業(yè)研究機(jī)構(gòu)和行業(yè)公司等應(yīng)用非常廣泛,如風(fēng)險監(jiān)測、智能投研、智能監(jiān)管、智能風(fēng)控等,具有巨大的學(xué)術(shù)價值和產(chǎn)業(yè)價值。

數(shù)據(jù)集

達(dá)觀數(shù)據(jù)所構(gòu)建的大規(guī)模金融研報知識圖譜數(shù)據(jù)集FR2KG是用于評測知識圖譜自動化構(gòu)建技術(shù)的專業(yè)數(shù)據(jù)集,是當(dāng)前最大規(guī)模的中文金融研報知識圖譜。下圖是數(shù)據(jù)集構(gòu)建過程示意圖

poYBAGMVUqSAB5vHAABSE5RNWVM330.jpg

FR2KG的知識圖譜模式包含10個實(shí)體類型,19個關(guān)系類型和6種屬性,如下圖所示。

pYYBAGMVUqWAUzxnAACkend7yiE077.jpg

構(gòu)建好的金融研報知識圖譜數(shù)據(jù)集FR2KG包含17,799實(shí)體,26,798關(guān)系三元組,1,328屬性三元組,SeedKG和EvaluationKG的數(shù)據(jù)情況如下圖所示。

下圖是數(shù)據(jù)集的樣例,使用達(dá)觀數(shù)據(jù)淵海知識圖譜平臺可視化:

poYBAGMVUqWAU6wsAADVO-16R-c247.jpg

目前數(shù)據(jù)集已經(jīng)發(fā)布在SCIDB和OpenKG上,歡迎大家前往下載。在使用數(shù)據(jù)集進(jìn)行研究時請引用本論文。

文章:Data Set and Evaluation of Automated Construction of Financial Knowledge Graph

作者:王文廣,徐永林、杜春輝、陳運(yùn)文、王逸捷、文輝

引用: Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence 3(3), 418-443 (2021). doi: 10.1162/dint_a_00108

競賽技術(shù)回顧

本次評測一共有740個隊(duì)伍報名,其中F1分?jǐn)?shù)最高的18支隊(duì)伍中,有3支隊(duì)伍來自企業(yè),10支隊(duì)伍來自高校,3支隊(duì)伍高校和企業(yè)的組合,另外2支隊(duì)伍未透露相關(guān)信息。本次評測的top5隊(duì)伍都梳理并提交了他們所使用的方法的簡要說明,下文對這些方法和說明進(jìn)行分析總結(jié)。

所有隊(duì)伍都使用了規(guī)則或者labelling function來生產(chǎn)訓(xùn)練樣本,只有一個隊(duì)伍在自動生成樣本之外,又額外人工標(biāo)注了20份的研報來作為補(bǔ)充和驗(yàn)證的訓(xùn)練樣本。

所有隊(duì)伍在實(shí)體抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于規(guī)則的方法來對特定的實(shí)體類型進(jìn)行補(bǔ)充。

在關(guān)系和屬性抽取方面,所有的隊(duì)伍都使用了基于共現(xiàn)的方法,共現(xiàn)是遠(yuǎn)程監(jiān)督的基本假設(shè),也就是說,當(dāng)兩個實(shí)體共同出現(xiàn)在一個較短的一段文本時,即可假設(shè)它們存在符合相應(yīng)的關(guān)系。在基于共現(xiàn)的假設(shè)之上,三支隊(duì)伍使用了規(guī)則來判斷是否真正存在這種關(guān)系,另外兩只隊(duì)伍使用了基于BERT的模型來對關(guān)系進(jìn)行分類。

其中一支隊(duì)伍使用了聚類的方法來將相似或相同主題的研報給聚在一起,對研報進(jìn)行了預(yù)處理。

知識圖譜自動化構(gòu)建的挑戰(zhàn)

從本次基于知識圖譜模式的自動化構(gòu)建知識圖譜評測的結(jié)果來看,單純使用算法來構(gòu)建完全自動化地構(gòu)建知識圖譜,尚存在較多挑戰(zhàn),這里總結(jié)了一些具有相當(dāng)挑戰(zhàn)性的課題和研究方向:

在給定知識圖譜模式和種子知識圖譜來自動化的構(gòu)建知識圖譜上,現(xiàn)有的方法效果都不太好,如何實(shí)現(xiàn)端到端或者多步的框架實(shí)現(xiàn)知識圖譜的完全自動化構(gòu)建是值得繼續(xù)探索的。

通過知識圖譜及其對應(yīng)的Schema如何實(shí)現(xiàn)自動化標(biāo)注語料是一個值得研究的課題,能夠?qū)崿F(xiàn)高精度的自動化標(biāo)注語料可以帶來更好的抽取模型。此外,自動化標(biāo)注語料方面的評測也是一件非常有意義的事情。

實(shí)體抽取方面,評測的優(yōu)秀選手都使用了基于BERT的模型,再加上基于規(guī)則的方法來實(shí)現(xiàn),在這種真實(shí)的場景且計算力資源受限的情況下,如何在少量語料的情況下實(shí)現(xiàn)高精度的抽取。

關(guān)系和屬性抽取與識別上,目前集中在采用短文本內(nèi)共現(xiàn)并過濾的方法來實(shí)現(xiàn),這極大的依賴于實(shí)體抽取的F1分?jǐn)?shù),高precision和高recall的實(shí)體抽取決定了關(guān)系和屬性抽取有好的效果。那么如何在噪聲較多,即不那么高的情況下來實(shí)現(xiàn)好的關(guān)系和屬性抽?。?/p>

本次評測沒有看到使用端到端的實(shí)現(xiàn)實(shí)體和關(guān)系聯(lián)合抽取的模型,可能的原因是實(shí)體和關(guān)系類型較多且沒有大量的語料,那么在這種情況下如何開發(fā)出端到端的模型也是非常具有挑戰(zhàn)性的課題。

當(dāng)Schema的規(guī)模進(jìn)一步擴(kuò)大時,比如50種實(shí)體類型,數(shù)百種的實(shí)體屬性和實(shí)體間的關(guān)系,對這樣的知識圖譜研究其自動化構(gòu)建是一個兼具挑戰(zhàn)性與現(xiàn)實(shí)意義的課題。

多語言的知識圖譜自動化構(gòu)建技術(shù)的研究。本次評測集中在中文,以及中文中存在的少量英文的情況,特別的,沒有涉及到多語言之間實(shí)體融合的情況。但在真實(shí)場景下,多語言語料以及構(gòu)建多語言圖譜是非常重要的。這涉及了多方面的內(nèi)容,包括多語言的實(shí)體、關(guān)系和屬性的抽取,多語言之間實(shí)體的融合等等方面技術(shù)的研究。同時,組織多語言知識圖譜自動化構(gòu)建方面的評測也是非常有意義的事情。

本次評測中隱含著少量實(shí)體的消歧與融合,這塊沒有顯性的進(jìn)行評測,未來可以將這塊明確的表達(dá)出來,以促進(jìn)相關(guān)領(lǐng)域的研究。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動化
    +關(guān)注

    關(guān)注

    29

    文章

    5767

    瀏覽量

    82886
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25369
  • 知識圖譜
    +關(guān)注

    關(guān)注

    2

    文章

    132

    瀏覽量

    7964
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器人和自動化的未來(2)

    、無人駕駛等概念,正在逐步成為現(xiàn)實(shí)。與此同時,機(jī)器人和自動化技術(shù)的廣泛應(yīng)用,也帶來了倫理和法律方面的新挑戰(zhàn)。3.1智慧工廠與工業(yè)4.0智慧工廠是未來制造業(yè)的發(fā)展方向之一。
    的頭像 發(fā)表于 04-26 08:33 ?301次閱讀
    機(jī)器人和<b class='flag-5'>自動化</b>的未來(2)

    HFSS 自動化建模工具

    因工作需求,自己寫的HFSS參數(shù)自動化建模工具,目前只實(shí)現(xiàn)了常用的四種模型,可定制,如需可聯(lián)系 qq:1300038043 附件下載鏈接:https://pan.baidu.com/s/1TVeTTFiJw-pxSyT1AT8IQA 提取碼: kxup
    發(fā)表于 02-27 17:44

    清華大學(xué)自動化系學(xué)子走進(jìn)華礪智行研學(xué)交流

    近日,清華大學(xué)自動化系的11名學(xué)子走進(jìn)華礪智行研學(xué)交流,開展科技前沿探索的社會實(shí)踐活動。
    的頭像 發(fā)表于 02-13 10:03 ?407次閱讀

    基于 Docker 與 Jenkins 實(shí)現(xiàn)自動化部署

    優(yōu)化,為 Docker 容器應(yīng)用與 Jenkins 自動化流水線提供了理想的運(yùn)行環(huán)境。無論是快速構(gòu)建、測試還是部署,F(xiàn)lexus X 都能確保流程順暢無阻,大幅提升軟件開發(fā)與交付效率。立即擁抱華為云
    的頭像 發(fā)表于 01-07 17:25 ?504次閱讀
    基于 Docker 與 Jenkins 實(shí)現(xiàn)<b class='flag-5'>自動化</b>部署

    三星自主研發(fā)知識圖譜技術(shù),強(qiáng)化Galaxy AI用戶體驗(yàn)與數(shù)據(jù)安全

    據(jù)外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術(shù),旨在進(jìn)一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強(qiáng)用戶數(shù)據(jù)的隱私保護(hù)。
    的頭像 發(fā)表于 11-07 15:19 ?1343次閱讀

    愛芯元智受邀參加2024清華自動化論壇

    近日,“2024清華自動化論壇”在廣州舉行。本次論壇由清華校友總會自動化系分會主辦,匯聚了海內(nèi)外約200位清華大學(xué)自動化系系友、學(xué)術(shù)界和產(chǎn)業(yè)界精英,共同分享各自領(lǐng)域最新研究成果與未來發(fā)展趨勢,
    的頭像 發(fā)表于 11-05 14:41 ?700次閱讀

    探索Playwright:前端自動化測試的新紀(jì)元

    作者:京東保險 張新磊 背景 在前端開發(fā)中,自動化測試是確保軟件質(zhì)量和用戶體驗(yàn)的關(guān)鍵環(huán)節(jié)。隨著Web應(yīng)用的復(fù)雜性不斷增加,手動測試已經(jīng)無法滿足快速迭代和持續(xù)交付的需求。自動化測試通過模擬用戶
    的頭像 發(fā)表于 10-22 14:27 ?652次閱讀

    探索分布式IO模塊的介質(zhì)冗余:賦能工業(yè)自動化的穩(wěn)健之心

    凸顯。明達(dá)技術(shù)自主研發(fā)的帶有介質(zhì)冗余功能的MR30分布式IO模塊,正以其獨(dú)特的優(yōu)勢,為工業(yè)自動化系統(tǒng)構(gòu)建起一道堅不可摧的防護(hù)網(wǎng)。
    的頭像 發(fā)表于 09-25 10:45 ?535次閱讀
    <b class='flag-5'>探索</b>分布式IO模塊的介質(zhì)冗余:賦能工業(yè)<b class='flag-5'>自動化</b>的穩(wěn)健之心

    開關(guān)電源自動化測試設(shè)備:如何實(shí)現(xiàn)自動化測試?

    開關(guān)電源自動化測試設(shè)備是將測試軟件和測試硬件集成在一個電源測試柜中的ate自動測試設(shè)備,其測試原理是通過計算機(jī)操控測試儀器,從而減少人工干預(yù),完成開關(guān)電源的自動化測試,旨在解放人力,提高測試效率,讓測試更便捷。
    的頭像 發(fā)表于 08-30 18:19 ?1775次閱讀
    開關(guān)電源<b class='flag-5'>自動化</b>測試設(shè)備:如何實(shí)現(xiàn)<b class='flag-5'>自動化</b>測試?

    探索工業(yè)自動化轉(zhuǎn)換網(wǎng)關(guān):定義背后的功能密碼

    在當(dāng)今物聯(lián)網(wǎng)(IoT)與工業(yè)自動化日益融合的時代背景下,自動化協(xié)議轉(zhuǎn)換網(wǎng)關(guān)作為連接不同設(shè)備與系統(tǒng)之間的橋梁,扮演著至關(guān)重要的角色。自動化協(xié)議轉(zhuǎn)換網(wǎng)關(guān),作為這一領(lǐng)域內(nèi)的佼佼者,以其靈活、可靠的性能
    的頭像 發(fā)表于 08-22 09:43 ?445次閱讀
    <b class='flag-5'>探索</b>工業(yè)<b class='flag-5'>自動化</b>轉(zhuǎn)換網(wǎng)關(guān):定義背后的功能密碼

    三星電子將收購英國知識圖譜技術(shù)初創(chuàng)企業(yè)

    在人工智能技術(shù)日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術(shù)創(chuàng)新實(shí)力。近日,三星正式宣布完成了對英國領(lǐng)先的人工智能(AI)與知識圖譜技術(shù)初創(chuàng)企業(yè)Oxford Semantic Technologies的收購,此舉標(biāo)志著三星在提升設(shè)備端AI能力、深化個性化用戶體驗(yàn)方面邁出了重要一步。
    的頭像 發(fā)表于 07-18 14:46 ?746次閱讀

    知識圖譜與大模型之間的關(guān)系

    在人工智能的廣闊領(lǐng)域中,知識圖譜與大模型是兩個至關(guān)重要的概念,它們各自擁有獨(dú)特的優(yōu)勢和應(yīng)用場景,同時又相互補(bǔ)充,共同推動著人工智能技術(shù)的發(fā)展。本文將從定義、特點(diǎn)、應(yīng)用及相互關(guān)系等方面深入探討知識圖譜與大模型之間的關(guān)系。
    的頭像 發(fā)表于 07-10 11:39 ?2018次閱讀

    壓力傳感器在工業(yè)自動化領(lǐng)域的深度應(yīng)用與前沿探索

    壓力傳感器在工業(yè)自動化領(lǐng)域的應(yīng)用廣泛而深入,其重要性不言而喻。隨著技術(shù)的不斷進(jìn)步和發(fā)展,中國國產(chǎn)壓力傳感器正朝著智能、網(wǎng)絡(luò)、高精度、高可靠性、多功能和集成化等方向發(fā)展,在各個領(lǐng)域
    的頭像 發(fā)表于 07-01 16:07 ?1155次閱讀

    機(jī)械自動化和電氣自動化區(qū)別是什么

    機(jī)械自動化和電氣自動化是現(xiàn)代工業(yè)生產(chǎn)中兩個重要的領(lǐng)域,它們在許多方面有著密切的聯(lián)系,但也存在一些明顯的區(qū)別。 一、基本概念 機(jī)械自動化 機(jī)械自動化是指利用機(jī)械設(shè)備、傳感器、控制系統(tǒng)等技
    的頭像 發(fā)表于 07-01 09:33 ?7417次閱讀

    機(jī)械自動化自動化的一種嗎

    引言 自動化技術(shù)是指利用控制裝置對生產(chǎn)過程進(jìn)行控制,以實(shí)現(xiàn)生產(chǎn)過程的自動化。機(jī)械自動化自動化技術(shù)的一種,它主要涉及到使用機(jī)械設(shè)備和控制系統(tǒng)來實(shí)現(xiàn)生產(chǎn)過程的
    的頭像 發(fā)表于 07-01 09:32 ?2456次閱讀