一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

藏經閣計劃發(fā)布一年以來,阿里知識圖譜團隊有哪些技術突破?

mK5P_AItists ? 來源:YXQ ? 2019-04-17 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要:2018年4月阿里巴巴業(yè)務平臺事業(yè)部——知識圖譜團隊聯(lián)合清華大學、浙江大學、中科院自動化所、中科院軟件所、蘇州大學等五家機構,聯(lián)合發(fā)布藏經閣(知識引擎)研究計劃。藏經閣計劃依賴阿里強大的計算能力(例如Igraph圖數據庫),和先進的機器學習算法(例如PAI平臺)。計劃發(fā)布一年以來,阿里知識圖譜團隊有哪些技術突破?今天一起來了解。

背景

藏經閣計劃發(fā)布一年以來,我們對知識引擎技術進行了重新定義,將其定義成五大技術模塊:知識獲取、知識建模、知識推理、知識融合、知識服務,并將其開發(fā)落地。

其中知識建模的任務是定義通用/特定領域知識描述的概念、事件、規(guī)則及其相互關系的知識表示方法,建立通用/特定領域知識圖譜的概念模型;知識獲取是對知識建模定義的知識要素進行實例化的獲取過程,將非結構化數據結構化為圖譜里的知識;而知識融合是對異構和碎片化知識進行語義集成的過程,通過發(fā)現(xiàn)碎片化以及異構知識之間的關聯(lián),獲得更完整的知識描述和知識之間的關聯(lián)關系,實現(xiàn)知識互補和融合;知識推理是根據知識圖譜提供知識計算和推理模型,發(fā)現(xiàn)知識圖譜中的相關知識和隱含知識的過程。知識服務則是通過構建好的知識圖譜提供以知識為核心的知識智能服務,提升應用系統(tǒng)的智能化服務能力。

圖1 藏經閣-知識引擎產品

經過一年的工作,在知識建模模塊我們開發(fā)了Ontology自動搭建、屬性自動發(fā)現(xiàn)等算法,搭建了知識圖譜Ontology構建的工具;在知識獲取模塊我們研發(fā)了新實體識別、緊湊型事件識別,關系抽取等算法,達到了業(yè)界最高水平;在知識融合模塊,我們設計了實體對齊和屬性對齊的深度學習算法,使之可以在不同知識庫上達到更好的擴展性,大大豐富了知識圖譜里的知識;在知識推理模塊,我們提出了基于Character Embedding的知識圖譜表示學習模型CharTransE、可解釋的知識圖譜學習表示模型XTransE,并開發(fā)出了強大的推理引擎。

基于上面的這些技術模塊,我們開發(fā)了通用的知識引擎產品,目前已經在全阿里經濟體的淘寶、天貓、盒馬鮮生、飛豬、天貓精靈等幾十種產品上取得了成功應用,每天有8000多萬次在線調用,日均離線輸出9億條知識。目前在知識引擎產品上,已經構建成功并運行著商品、旅游、新制造等5個垂直領域圖譜的服務。

圖2 知識引擎四個層次圖示

在每個模塊的構建過程中,我們陸續(xù)攻克了一系列的技術問題。本文將選取其中的兩項工作來介紹給大家:

1、在眾包數據上進行對抗學習的命名實體識別方法

知識獲取模塊包含實體識別、實體鏈接、新實體發(fā)現(xiàn)、關系抽取、事件挖掘等基本任務,而實體識別(NER)又是其中最核心的任務。

目前學術界最好的命名實體識別算法主要是基于有監(jiān)督學習的。構建高性能NER系統(tǒng)的關鍵是獲取高質量標注語料。但是高質量標注數據通常需要專家進行標注,代價高并且速度較慢,因此目前工業(yè)界比較流行的方案是依賴眾包來標注數據,但是由于眾包人員素質參差不齊,對問題理解也千差萬別,所以用其訓練的算法效果會受到影響?;诖藛栴},我們提出了針對眾包標注數據,設計對抗網絡來學習眾包標注員之間的共性,消除噪音,提高中文NER的性能的方法。

這項工作的具體網絡框架如圖3所示:

圖3基于對抗網絡的實體識別模型

標注員ID:對于各個標注員ID信息,我們使用一個Looking-up表,表內存儲著每個WorkerID的向量表示。向量的初始值通過隨機數進行初始化。在模型訓練過程中,ID向量的所有數值作為模型的參數,在迭代過程中隨同其他參數一起優(yōu)化。在訓練時每個標注樣例的標注員,我們直接通過查表獲取對應的ID向量表示。在測試時,由于缺乏標注員信息,我們使用所有向量的平均值作為ID向量輸入。

對抗學習(WorkerAdversarial):眾包數據作為訓練語料,存在一定數量的標注錯誤,即“噪音”。這些標注不當或標注錯誤都是由標注員帶來的。不同標注員對于規(guī)范的理解和背景認識是不同的。對抗學習的各LSTM模塊如下:

私有信息的LSTM稱為“private”,它的學習目標是擬合各位標注員的獨立分布;而共有信息的LSTM稱為“common”,它的輸入是句子,它的作用是學習標注結果之間的共有特征,

標注信息的LSTM稱為“l(fā)abel”,以訓練樣例的標注結果序列為輸入,

。

再通過標注員分類器把label和common的LSTM特征合并,輸入給CNN層進行特征組合提取,最終對標注員進行分類。要注意的是,我們希望標注員分類器最終失去判斷能力,也就是學習到特征對標注員沒有區(qū)分能力,也就是共性特征。所以在訓練參數優(yōu)化時,它要反向更新。

在實際的實體識別任務中,我們把common和private的LSTM特征和標注員ID向量合并,作為實體標注部分的輸入,最后用CRF層解碼完成標注任務。

實驗結果如圖4所示,我們的算法在商品Title和用戶搜索Query的兩個數據集上均取得最好的性能:

圖4基于對抗網絡的實體識別模型實驗結果

2、基于規(guī)則與graph embedding迭代學習的知識圖譜推理算法

知識圖譜推理計算是補充和校驗圖譜關系及屬性的必不可少的技術手段。規(guī)則和嵌入(Embedding)是兩種不同的知識圖譜推理的方式,并各有優(yōu)劣,規(guī)則本身精確且人可理解,但大部分規(guī)則學習方法在大規(guī)模知識圖譜上面臨效率問題,而嵌入(Embedding)表示本身具有很強的特征捕捉能力,也能夠應用到大規(guī)模復雜的知識圖譜上,但好的嵌入表示依賴于訓練信息的豐富程度,所以對稀疏的實體很難學到很好的嵌入表示。我們提出了一種迭代學習規(guī)則和嵌入的思路,在這項工作中我們利用表示學習來學習規(guī)則,并利用規(guī)則對稀疏的實體進行潛在三元組的預測,并將預測的三元組添加到嵌入表示的學習過程中,然后不斷進行迭代學習。工作的整體框架如圖5所示:

圖5基于對抗網絡的實體識別模型實驗結果

嵌入學習優(yōu)化的目標函數是:

其中:

lsro表示三元組的標記,表示三元組的評分函數,vs表示圖譜三元組中主語(subject)的映射,Mr表示圖譜中兩個實體間關系的映射,vo表示圖譜三元組中賓語(object)的映射。

基于學習到的規(guī)則(axiom),就可以進行推理執(zhí)行了。通過一種迭代策略,先使用嵌入(Embedding)的方法從圖譜中學習到規(guī)則,再將規(guī)則推理執(zhí)行,將新增的關系再加入到圖譜中,通過這種不斷學習迭代的算法,能夠將圖譜中的關系預測做的越來越準。最終我們的算法取得了非常優(yōu)秀的性能:

除了上述兩項工作以外,在知識引擎技術的研發(fā)上我們還有一系列的前沿工作,取得了領先業(yè)界的效果,研究成果發(fā)表在AAAI、WWW、EMNLP、WSDM等會議上。

之后阿里巴巴知識圖譜團隊會持續(xù)推進藏經閣計劃,構建通用可遷移的知識圖譜算法,并將知識圖譜里的數據輸出到阿里巴巴內外部的各項應用之中,為這些應用插上AI的翅膀,成為阿里巴巴經濟體乃至全社會的基礎設施。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關注

    關注

    39

    文章

    7976

    瀏覽量

    139946
  • 阿里巴巴
    +關注

    關注

    7

    文章

    1638

    瀏覽量

    48222

原文標題:藏經閣計劃發(fā)布一年,阿里知識引擎有哪些技術突破?

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    輕輕松松學電工(識圖篇)

    內容介紹 結合廣大電工人員的實際需要,主要介紹了常用電工電路識圖的基礎知識、方法及技巧,內容包括常用電氣符號、電工識圖基本方法,以及識讀供配電系統(tǒng)圖、建筑電氣圖、電力拖動系統(tǒng)電氣圖、PLC梯形圖
    發(fā)表于 04-30 17:18

    典型電路原理、電路識圖從入門到精通等資料

    1、電路識圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進、由淺入深地介紹了電路圖的基礎知識、典型單元電路的
    的頭像 發(fā)表于 04-15 15:53 ?6399次閱讀
    典型電路原理、電路<b class='flag-5'>識圖</b>從入門到精通等資料

    每周推薦!電子工程師必學!典型電路原理、電路識圖從入門到精通等資料

    1、 電路識圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進、由淺入深地介紹了電路圖的基礎知識、典型單元電路的
    發(fā)表于 04-11 15:17

    電路識圖從入門到精通高清電子資料

    、彩色電視機等電器的電路圖識圖技巧。 純分享貼,需要可以直接下載附件獲取完整資料! (如果內容幫助可以關注、點贊、評論支持下哦~)
    發(fā)表于 04-10 16:22

    麥谷科技2024專利成果豐收

    在科技日新月異的今天,麥谷科技始終站在車聯(lián)網領域的前沿,不斷探索和創(chuàng)新。2024,麥谷迎來了知識產權發(fā)展的又個重要里程碑,這一年不僅是技術
    的頭像 發(fā)表于 02-15 14:19 ?851次閱讀

    淵亭KGAG升級引入“高級策略推理”

    為了突破現(xiàn)有AI技術在決策推理方面的局限,淵亭科技對其知識圖譜分析平臺KGAG進行了最新升級,創(chuàng)新性地引入了“高級策略推理”模式。這模式的引入,實現(xiàn)了“大模型×
    的頭像 發(fā)表于 02-14 15:07 ?524次閱讀

    新的一年 RISC-V前景如何呢?

    1 月 7 日消息,RISC-V 領軍企業(yè) SiFive 成立中國分公司,中文名稱定為“芯伍科技”。 1 月 14 日消息,專注傳統(tǒng)與 AI 業(yè)務,Imagination 放棄 RISC-V CPU 開發(fā)。 新的一年,RISC-V前景如何呢?
    發(fā)表于 01-24 16:19

    傳音旗下人工智能項目榮獲2024“上海產學研合作優(yōu)秀項目獎”等獎

    和華東師范大學聯(lián)合申報的“跨語言知識圖譜構建與推理技術研究及應用”項目憑借創(chuàng)新性和技術先進性榮獲等獎。該項目成功突破了多形態(tài)信息抽取
    的頭像 發(fā)表于 12-16 17:04 ?644次閱讀
    傳音旗下人工智能項目榮獲2024<b class='flag-5'>年</b>“上海產學研合作優(yōu)秀項目獎”<b class='flag-5'>一</b>等獎

    傳音旗下小語種AI技術榮獲2024“上海產學研合作優(yōu)秀項目獎”等獎

    和華東師范大學聯(lián)合申報的“跨語言知識圖譜構建與推理技術研究及應用”項目憑借創(chuàng)新性和技術先進性榮獲等獎。 該項目成功突破了多形態(tài)信息抽取
    的頭像 發(fā)表于 12-16 16:21 ?817次閱讀
    傳音旗下小語種AI<b class='flag-5'>技術</b>榮獲2024<b class='flag-5'>年</b>“上海產學研合作優(yōu)秀項目獎”<b class='flag-5'>一</b>等獎

    三星自主研發(fā)知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術,旨在進步優(yōu)化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發(fā)表于 11-07 15:19 ?1373次閱讀

    易智瑞榮獲“信息技術應用創(chuàng)新工作委員會技術活動單位”

    易智瑞公司以創(chuàng)新作為企業(yè)發(fā)展的內核,技術上的每突破,都將賦予產品符合當下市場需求和技術環(huán)境下的特定能力。在202411月5-6日召開的
    的頭像 發(fā)表于 10-11 10:41 ?756次閱讀
    易智瑞榮獲“信息<b class='flag-5'>技術</b>應用創(chuàng)新工作委員會<b class='flag-5'>技術</b>活動單位”

    星閃技術已經發(fā)布一年多了,應用何去何從?

    星閃技術已經發(fā)布一年多了,想必大家也都有關注,大家觀察觀察身邊所經歷的項目及其他無線應用場景,來說說星閃技術應用都有哪些落腳點。咱們踴躍討論發(fā)言
    發(fā)表于 09-13 09:46

    記錄次RPC服務有損上線的分析過程

    1. 問題背景 某應用在啟動完提供JSF服務后,短時間內出現(xiàn)了大量的空指針異常。 分析日志,發(fā)現(xiàn)是服務依賴的藏經閣配置數據未加載完成導致。即所謂的 有損上線 或者是 直接發(fā)布 , 當 應用啟動時
    的頭像 發(fā)表于 07-30 09:58 ?482次閱讀
    記錄<b class='flag-5'>一</b>次RPC服務有損上線的分析過程

    三星電子成功收購英國初創(chuàng)公司,致力開發(fā)AI核心技術

    7月18日,三星電子正式對外宣布了項重要戰(zhàn)略舉措——成功收購英國新興科技企業(yè)Oxford Semantic Technologies。這家初創(chuàng)公司成立于2017,專注于前沿的知識圖譜技術
    的頭像 發(fā)表于 07-18 15:40 ?844次閱讀

    三星電子將收購英國知識圖譜技術初創(chuàng)企業(yè)

    在人工智能技術日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術創(chuàng)新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創(chuàng)企業(yè)Oxford Seman
    的頭像 發(fā)表于 07-18 14:46 ?761次閱讀