亚洲最大成人网一区二区三区,国产护士一区二区三区

大模型與知識圖譜是知識表達的一體兩面，如何結(jié)合兩者是近期業(yè)界關(guān)注的焦點。來自英國愛丁堡大學等學者最新《大模型與知識圖譜》的簡述，討論了大模型和知識圖譜的互相促進的方式，值得關(guān)注！

大型語言模型（LLMs）已在知識表示領(lǐng)域——以及全球——引起軒然大波。這一轉(zhuǎn)折點標志著從明確的知識表示到對明確知識和參數(shù)知識雙方的混合表示的重新關(guān)注。在這篇立場論文中，我們將討論社區(qū)中關(guān)于LLMs（參數(shù)知識）和知識圖譜（明確知識）的一些常見爭論點，并推測這種重新關(guān)注帶來的機會、愿景以及相關(guān)的研究主題和挑戰(zhàn)。

大型語言模型與知識圖譜：機遇與挑戰(zhàn)

大型語言模型（LLMs）在知識表示（KR）和整個世界中引起了軒然大波，因為它們在廣泛的自然語言任務(wù)中展現(xiàn)出了人類級別的表現(xiàn)，包括一些需要人類知識的任務(wù)。在此之后，人們逐漸開始接受某些語言模型的參數(shù)中可能存在知識的可能性。LLMs的到來標志著知識計算的時代的開始，在這個時代中，KR內(nèi)的推理概念擴大到基于各種知識表示的許多計算任務(wù)。

這對知識表示領(lǐng)域來說是一個巨大的步驟。長時間以來，人們關(guān)注的是明確的知識，例如嵌入在文本中的知識，有時也被稱為非結(jié)構(gòu)化數(shù)據(jù)，以及以結(jié)構(gòu)化形式存在的知識，例如在數(shù)據(jù)庫和知識圖譜（KGs）［123］中。從歷史上看，人們長時間使用文本將他們的知識從一代傳遞到另一代，直到大約20世紀60年代，研究者開始研究知識表示以更好地理解自然語言，并開發(fā)了早期系統(tǒng)，例如MIT的ELIZA［180］。在21世紀初，知識表示和語義網(wǎng)社區(qū)合作標準化了廣泛使用的知識表示語言，例如RDF［121］和OWL［55］，在網(wǎng)絡(luò)規(guī)模上，使用它們，大規(guī)模的知識庫被更廣泛地稱為KGs［123］，由于它們有用的圖結(jié)構(gòu)，實現(xiàn)了邏輯推理和基于圖的學習。與LLMs的到來相伴的這一轉(zhuǎn)折點，標志著從明確的知識表示向?qū)γ鞔_知識和參數(shù)知識兩者的混合表示的重新關(guān)注的范式轉(zhuǎn)變。

作為明確知識表示的流行方法，KGs現(xiàn)在被廣泛研究用于與基于Transformer的LLMs結(jié)合，包括像BERT［39］和RoBERTa［104］這樣的預訓練掩碼語言模型（PLMs），以及更近期的生成性LLMs，如GPT系列［23］和LLaMA［165］。一些工作使用LLMs增強KGs，例如，知識提取、KG構(gòu)建和精煉，而其他工作使用KGs增強LLMs，例如，訓練和提示學習，或知識增強。在本文中，考慮到LLMs用于KGs和KGs用于LLMs的兩個方向，我們提出了一個從明確知識表示到對明確知識和參數(shù)知識兩者的混合表示的重新關(guān)注的轉(zhuǎn)變的更好理解。

一個相關(guān)的調(diào)查論文［204］對使用LLMs進行KG構(gòu)建和推理進行了全面的審查，而我們的工作為這一轉(zhuǎn)折點提供了更深入的視角，不僅考慮了關(guān)系性KGs，還考慮了使用本體論作為模式的KGs，以及其他維度的結(jié)構(gòu)化知識，包括表格數(shù)據(jù)［183］和數(shù)值［122］。在LLMs和KGs的交叉點上的其他研究與我們論文中涵蓋的主題有輕微的重疊；例如，使用LLMs作為KGs的研究［5］，使用KGs增強LLMs的研究［185］，或者在三個與知識相關(guān)的任務(wù)上比較GPT-4、ChatGPT和SOTA微調(diào)方法——實體、關(guān)系和事件提取，鏈接預測和KG問題回答［204］?？偟膩碚f，這些論文中沒有一個深入探討這一轉(zhuǎn)折點的具體應(yīng)用的含義。為此，本文總結(jié)了社區(qū)內(nèi)的常見爭議點，介紹了在KGs和LLMs集成的一系列主題上的最新技術(shù)，并進一步提出了機會和挑戰(zhàn)。

知識圖譜與大型語言模型

結(jié)合參數(shù)知識和明確知識的可用性所帶來的機會和愿景，本節(jié)我們將按照四個不同的主題對使用LLMs和KGs的最近發(fā)展進行分類、總結(jié)和展示。

1. LLMs 用于KGs：知識提取和規(guī)范化

KG的構(gòu)建是一個復雜的任務(wù)，要求從包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在內(nèi)的廣泛來源收集和整合信息。傳統(tǒng)方法通常依賴于為處理每種數(shù)據(jù)類型而特別設(shè)計的模塊，并在內(nèi)容多樣且結(jié)構(gòu)異質(zhì)時面臨困難。然而，LLMs 是在廣泛的信息來源上訓練的強大的NLP模型，使它們非常適合知識提取任務(wù)。本節(jié)介紹了使用LLMs從各種來源進行知識提取的工作。

實體解析與匹配

實體解析（也稱為實體匹配、實體鏈接或?qū)嶓w對齊）是將出現(xiàn)在多個異構(gòu)數(shù)據(jù)集中并指向同一個實體的信息片段進行鏈接的過程［46， 50， 126］。過去的研究主要集中在為扁平結(jié)構(gòu)化數(shù)據(jù)所代表的實體之間開發(fā)方法和相似性度量。然而，針對KGs的半結(jié)構(gòu)化數(shù)據(jù)的實體解析是一個相對較新的主題，受到的關(guān)注明顯較少。

實體對齊的方法可以分為通用方法和基于嵌入的類別。通用方法，例如CG-MuAlign［203］，使用圖神經(jīng)網(wǎng)絡(luò)（GNNs）執(zhí)行多類型實體對齊，利用鄰近信息并泛化到未標記的類型，以及REA［129］，通過結(jié)合對抗性訓練與GNNs來解決多語言實體對齊問題，以應(yīng)對輸入的噪聲標記數(shù)據(jù)問題。基于嵌入的實體對齊方法將圖實體之間的符號相似性減少到一個向量空間中，以消除圖組件的異質(zhì)性并促進推理［156］。具體來說，總共有23種代表性的嵌入對齊方法在性能方面進行了交叉比較，但也顯示它們在標簽階段需要大量的監(jiān)督。

因此，在未來的研究調(diào)查中，非監(jiān)督方法和能夠處理大規(guī)模KGs的方法是非常受歡迎的。LLMs在KGs的實體解析和鏈接中有多種用途［7］。首先，LLMs可以幫助標記訓練數(shù)據(jù)，這通常是一個資源密集且耗時的步驟，阻礙了KGs的實體對齊性能。類似于［146］使用生成對抗網(wǎng)絡(luò)（GANs）來減少標記數(shù)據(jù)的努力，我們認為LLMs可以提供KGs的標記樣本并控制上述基于嵌入的方法的性能。

此外，LLMs可以幫助構(gòu)建穩(wěn)固的實體匹配規(guī)則語料庫，只要在圖設(shè)置中定義了一個聲明性形式化的邏輯語言L。這種邏輯語言的訓練數(shù)據(jù)應(yīng)作為輸入提供給LLMs，類似于在文本語料庫中可供消費的SQL語句。然而，需要進行提示工程以產(chǎn)生對于像DBpedia［9］和Wikidata［169］這樣的實際大規(guī)模KGs有意義的規(guī)則語料庫。

可以設(shè)想為這些實際的大規(guī)模KGs提供實體匹配規(guī)則日志，與這些KGs的查詢?nèi)罩绢愃疲?8， 19］?？傊?，實體對齊和匹配是完整知識推理的必要前處理步驟。將通用實體鏈接方法與基于嵌入的方法相結(jié)合，以及利用LLM驅(qū)動的規(guī)則和標記數(shù)據(jù)構(gòu)造，都可以更好地整合LLMs與知識推理［66］。后者整合LLMs和知識推理也可以提高性能，從而使模型的輸出可解釋和可解釋，并填補符號和統(tǒng)計AI之間的差距。

知識從表格數(shù)據(jù)中的提取

從數(shù)據(jù)庫、網(wǎng)頁表格和CSV文件等表格數(shù)據(jù)中提取知識是構(gòu)建KG的常見方式。對于已知語義（元信息）的表格，可以定義和使用啟發(fā)式規(guī)則將其數(shù)據(jù)轉(zhuǎn)化為KG事實。然而，現(xiàn)實世界的表格通常具有不明確的語義，重要的元信息（如表格名稱和列標題）未明確定義。與此同時，在可以提取預期的知識之前，通常需要檢索、探索、整合和策劃原始數(shù)據(jù)。

近年來，基于Transformer的LM已被研究用于處理表格，尤其是它們的文本內(nèi)容。它們可以被應(yīng)用于表格向量表示作為其他預測任務(wù)的基礎(chǔ)［168］。TURL ［38］是一個典型的表格表示學習方法，使用BERT ［39］，已應(yīng)用于多個任務(wù)，如單元格填充、列類型注釋和關(guān)系提取。類似地，RPT ［162］使用BERT和GPT進行表格表示模型的預訓練。Starmie ［47］使用模板將列轉(zhuǎn)化為序列，并使用可聯(lián)合和不可聯(lián)合的列對作為樣本微調(diào)BERT，采用對比學習框架。

在所有表格處理任務(wù)中，語義表格注釋，該注釋將表格數(shù)據(jù)匹配到KG組件（例如，表格列到KG類，表格單元格到KG實體，列間關(guān)系到KG屬性）可以直接應(yīng)用于提取知識，用于KG的構(gòu)建和填充［103， 76］。已經(jīng)有幾次嘗試使用LLMs進行這些任務(wù)。Doduo ［155］將表格序列化為一個令牌序列，并訓練BERT來預測列類型和列間關(guān)系。Korini等人［86］提示ChatGPT來注釋語義列類型。當任務(wù)特定的示例極少或不存在時，ChatGPT的性能與RoBERTa模型相似。

盡管已經(jīng)注意到了利用LLMs進行表格數(shù)據(jù)處理和KG構(gòu)建，但仍然有很大的研究空間，特別是面臨以下挑戰(zhàn)：

將表格內(nèi)容轉(zhuǎn)化為序列：表格或帶有其結(jié)構(gòu)化上下文的表格元素需要被轉(zhuǎn)化為一個序列，然后才能輸入到LLMs中。對于不同的LLM利用場景，如微調(diào)LLMs、帶提示的LLM推斷以及LLM的指導調(diào)整，需要不同的轉(zhuǎn)換方法。

表示和利用非文本的表格數(shù)據(jù)：表格通常不僅包含長文本和短文本，還包含如數(shù)字和日期等其他類型的數(shù)據(jù)。還有很少的工作考慮這些數(shù)據(jù)。

提取表格知識：LLMs主要用于處理和理解表格，但很少應(yīng)用于知識提取的最后步驟。已知OntoGPT［25］使用ChatGPT從文本中提取實例以填充本體，但對于表格沒有對應(yīng)的工具。除了實例之外，提取關(guān)系事實更具挑戰(zhàn)性。

從文本中提取知識

從文本中提取知識通常涉及自動提取實體及其相關(guān)關(guān)系，傳統(tǒng)的流水線處理大量的句子和文檔。這個過程使原始文本轉(zhuǎn)化為可行動的知識，有助于各種應(yīng)用，如信息檢索、推薦系統(tǒng)和KG構(gòu)建。LLMs的語言理解能力已經(jīng)增強了這一過程。例如，

命名實體識別（NER）和實體鏈接：如4.1.1節(jié)所述，涉及識別和分類文本中的命名實體（如人、組織和地點）并將其鏈接（更多內(nèi)容參見4.2.1節(jié)）到KGs。

關(guān)系提取：關(guān)注識別和分類實體之間的關(guān)系，利用LLMs的零射擊和少射擊的上下文學習技術(shù)［178， 93］。

事件提?。褐荚跈z測和分類文本中提到的事件，包括其參與者和屬性［170， 194］。

語義角色標記（SRL）：涉及識別句子中實體所扮演的角色，如主語、賓語和謂語［148， 199］。

這些方法允許LLMs從文本中提取信息，無需在特定領(lǐng)域進行大量的明確培訓，從而提高其多功能性和適應(yīng)性。此外，LLMs已經(jīng)證明了在從英語之外的語言中提取知識的能力，包括低資源語言，為跨語言知識提取鋪平了道路，并使LLMs能夠在多種語言環(huán)境中使用［89］。

此外，對LLMs的提示引入了NLP領(lǐng)域的新范式和可能性。LLMs可以生成高質(zhì)量的合成數(shù)據(jù)，然后可以用來微調(diào)較小的特定任務(wù)模型。這種方法，稱為合成數(shù)據(jù)生成，解決了有限的訓練數(shù)據(jù)可用性的挑戰(zhàn)，并提高了模型的性能［77， 163］。此外，指導調(diào)整已經(jīng)成為一種強大的技術(shù)，其中LLMs被訓練在由明確指令描述的數(shù)據(jù)集上，使得能夠更精確地控制和定制它們的行為以適應(yīng)特定的任務(wù)［178， 174］。

還有，對于構(gòu)建特定領(lǐng)域的KGs，風險更高，因此對生成的文本（由專家）進行審查是必要的。然而，這仍然是一個進步，因為人工注釋的成本低于人類文本生成。除了訓練和利用這些LLM所需的大量計算資源需求之外，還存在各種挑戰(zhàn)，包括在第2節(jié)中提到的挑戰(zhàn)。更具體地說，以下未來的方向仍然是可能的：

從非常長的文檔中有效提?。寒斍暗腖LMs無法一次處理像小說這樣的非常長的文檔。在這方面，可以進一步改進建模長范圍依賴性和執(zhí)行語料級信息提取。

高覆蓋率信息提?。簬缀跛械奶崛×魉€都關(guān)注高精度。然而，高回報率被忽視或未被充分探索［152］。建立具有高精度和高回報率的知識提取器將是建立終身信息提取器的一個巨大飛躍。

4.2 LLMs 用于 KGs

知識圖譜構(gòu)建我們強調(diào)了 LLMs 在改進知識圖譜構(gòu)建中的重要作用，重點關(guān)注這個領(lǐng)域的當前趨勢、問題和未回答的問題。我們首先討論鏈接預測，這是根據(jù)現(xiàn)有的知識圖譜生成新事實的一種方法。接下來，我們考察歸納鏈接預測，一種預測未見關(guān)系的三元組的方法。我們的關(guān)注點隨后轉(zhuǎn)移到一種更為近期的方法，其中三元組直接從 LLM 的參數(shù)知識中提取出來。作為這個部分的結(jié)論，我們討論了基于 LLM 的知識圖譜構(gòu)建方法的挑戰(zhàn)。這些挑戰(zhàn)涉及到長尾實體、數(shù)值以及這些方法的精確性問題。

4.3 LLMs 用于 KGs 本體模式構(gòu)建

一個知識圖譜通常配備有一個本體模式（包括規(guī)則、約束和本體）以確保質(zhì)量，使知識訪問更加容易，支持推理等。同時，一個獨立的本體，通常代表概念性知識有時帶有邏輯，也可以被視為一個知識圖譜。在這部分，我們介紹 LLMs 被應(yīng)用于學習本體模式和管理本體的主題。

4.4 KGs 為 LLMs 提供支持：訓練與訪問

LLMs在 4.1 到 4.3 節(jié)中，我們討論了使用 LLMs 為 KGs 提供支持的三個不同方面。在本節(jié)中，我們將研究相反的方向，即使用 KGs 為 LLMs 提供支持。這里有幾個維度。首先，KGs 可以用作 LLMs 的訓練數(shù)據(jù)。其次，KGs 中的三元組可以用于構(gòu)建提示。最后但同樣重要的是，KGs 可以用作檢索增強語言模型中的外部知識。

4.5 應(yīng)用

將 KGs 和 LLMs 集成到統(tǒng)一的方法中具有巨大的潛力，因為它們的組合能夠相互增強并以有價值的方式互補。例如，KGs 提供非常準確和明確的知識，這對于某些應(yīng)用（如醫(yī)療保?。┲陵P(guān)重要，而 LLMs 由于缺乏事實知識而被批評導致幻覺和不準確的事實。其次，LLMs 缺乏可解釋性，相反，由于 KGs 具有符號推理能力，它們能夠生成可解釋的結(jié)果。另一方面，從非結(jié)構(gòu)化文本構(gòu)建 KGs 很困難，并且存在不完整性，因此，可以利用 LLMs 通過文本處理來解決這些挑戰(zhàn)。各種應(yīng)用都采用了這種將 LLMs 與 KGs 結(jié)合的方法，如醫(yī)療助手，問題回答系統(tǒng)［188］或 ChatBots，以及可持續(xù)性等。

結(jié)論

近年來，大型語言模型（LLMs）的進展為知識圖譜（KG）研究標志了一個重要的轉(zhuǎn)折點。盡管如何結(jié)合它們的優(yōu)勢的重要問題仍然懸而未決，但這為未來的研究提供了令人興奮的機會。社區(qū)已經(jīng)迅速調(diào)整其研究重點，新的論壇如 KBC-LM 工作坊［79］和 LM-KBC 挑戰(zhàn) ［151］已經(jīng)出現(xiàn)，資源大量轉(zhuǎn)向知識提取、整合和使用的混合方法。我們提出以下建議：

不要因為范式的轉(zhuǎn)變而丟棄 KG：對于一系列可靠性或安全關(guān)鍵的應(yīng)用，結(jié)構(gòu)化知識仍然是不可或缺的，我們已經(jīng)概述了 KGs 和 LLMs 如何相互促進的多種方式。KGs 是留下來的，不要僅僅因為時尚而拋棄它們。

殺掉你的寵兒：LLMs 已經(jīng)大大推進了 KG 和本體構(gòu)建管道中的許多任務(wù)，甚至使一些任務(wù)過時。對最為確立的管道組件進行嚴格的審查，并不斷地與基于 LLM 的最新技術(shù)進行比較。

保持好奇，保持批判：LLMs 無疑是過去幾年 AI 研究的最令人印象深刻的產(chǎn)物。盡管如此，公眾和研究文獻中都存在大量夸大的聲明和期望，人們應(yīng)該保持適度的批判反思。特別是，對所謂的幻覺問題的根本解決方法尚未出現(xiàn)。

過去已經(jīng)結(jié)束，讓我們開始新的旅程：由 LLMs 觸發(fā)的進展以前所未有的方式顛覆了這個領(lǐng)域，并使得進入這個領(lǐng)域有了重要的捷徑。在與知識計算相關(guān)的領(lǐng)域開始新的征程，現(xiàn)在是最好的時機。盡管目前的轉(zhuǎn)變方向廣泛開放，但隨著研究者繼續(xù)探索混合方法的潛力和挑戰(zhàn)，我們可以期待在知識的表示和處理上看到新的突破，這將對從知識計算到 NLP、AI 乃至其他領(lǐng)域產(chǎn)生深遠的影響。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴