国产精品无码一区二区免费,激情五月综合亚洲另类,欧美日韩亚洲成人久久

在新基準(zhǔn) BIRD 上，ChatGPT 僅能達(dá)到 40.08%，相比人類 92.96% 還有很大差距。

背景

大模型（LLM）為通用人工智能（AGI）的發(fā)展提供了新的方向，其通過海量的公開數(shù)據(jù)，如互聯(lián)網(wǎng)、書籍等語料進(jìn)行大規(guī)模自監(jiān)督訓(xùn)練，獲得了強(qiáng)大的語言理解、語言生成、推理等能力。然而，大模型對(duì)于私域數(shù)據(jù)的利用仍然面臨一些挑戰(zhàn)，私域數(shù)據(jù)是指由特定企業(yè)或個(gè)人所擁有的數(shù)據(jù)，通常包含了領(lǐng)域特定的知識(shí)，將大模型與私域知識(shí)進(jìn)行結(jié)合，將會(huì)發(fā)揮巨大價(jià)值。

私域知識(shí)從數(shù)據(jù)形態(tài)上又可以分為非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)，例如文檔，通常都通過檢索的方式進(jìn)行增強(qiáng)，可以利用 langchain 等工具可以快速實(shí)現(xiàn)問答系統(tǒng)。而結(jié)構(gòu)化數(shù)據(jù)，如數(shù)據(jù)庫（DB），則需要大模型與數(shù)據(jù)庫進(jìn)行交互，查詢和分析來獲取有用的信息。圍繞大模型與數(shù)據(jù)庫，近期也衍生出一系列的產(chǎn)品與應(yīng)用，譬如利用 LLM 打造智能數(shù)據(jù)庫、執(zhí)行 BI 分析、完成自動(dòng)表格構(gòu)建等。其中，text-to-SQL 技術(shù)，即以自然語言的方式與數(shù)據(jù)庫進(jìn)行交互，一直以來都是一個(gè)備受期待的方向。

在學(xué)術(shù)界，過去的 text-to-SQL 基準(zhǔn)僅關(guān)注小規(guī)模數(shù)據(jù)庫，最先進(jìn)的 LLM 已經(jīng)可以達(dá)到 85.3% 的執(zhí)行準(zhǔn)確率，但這是否意味著 LLM 已經(jīng)可以作為數(shù)據(jù)庫的自然語言接口？

新一代數(shù)據(jù)集

最近，阿里巴巴聯(lián)合香港大學(xué)等機(jī)構(gòu)推出了面向大規(guī)模真實(shí)數(shù)據(jù)庫的全新基準(zhǔn) BIRD (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs)，包含 95 個(gè)大規(guī)模數(shù)據(jù)庫及高質(zhì)量的 Text-SQL pair，數(shù)據(jù)存儲(chǔ)量高達(dá) 33.4 GB。之前最優(yōu)的模型在 BIRD 上評(píng)估僅達(dá)到 40.08%，與人類 92.96% 的結(jié)果還有很大差距，這證明挑戰(zhàn)仍然存在。除了評(píng)估 SQL 正確性外，作者還增加了 SQL 執(zhí)行效率的評(píng)估，期待模型不僅可以寫正確的 SQL，還能夠?qū)懗龈咝У?SQL。

論文：https://arxiv.org/abs/2305.03111

主頁：https://bird-bench.github.io

代碼：https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird

目前，BIRD 的數(shù)據(jù)、代碼、榜單都已經(jīng)開源，在全球的下載量已超10000。BIRD在推出之始，就引發(fā)了 Twitter 上的廣泛關(guān)注與討論。

海外用戶的評(píng)論也非常精彩：

不容錯(cuò)過的 LLM 項(xiàng)目

非常有用的檢查點(diǎn)，提升的溫床

AI 可以幫助你，但還不能取代你

我的工作暫時(shí)是安全的...

方法概述

???

新的挑戰(zhàn)

該研究主要面向真實(shí)數(shù)據(jù)庫的 Text-to-SQL 評(píng)估，過去流行的測(cè)試基準(zhǔn)，比如 Spider 和 WikiSQL，僅關(guān)注具有少量數(shù)據(jù)庫內(nèi)容的數(shù)據(jù)庫 schema，導(dǎo)致學(xué)術(shù)研究與實(shí)際應(yīng)用之間存在鴻溝。BIRD 重點(diǎn)關(guān)注海量且真實(shí)的數(shù)據(jù)庫內(nèi)容、自然語言問題與數(shù)據(jù)庫內(nèi)容之間的外部知識(shí)推理以及在處理大型數(shù)據(jù)庫時(shí) SQL 的效率等新三個(gè)挑戰(zhàn)。

首先，數(shù)據(jù)庫包含海量且嘈雜數(shù)據(jù)的值。在左側(cè)示例中，平均工資的計(jì)算需要通過將數(shù)據(jù)庫中的字符串（String）轉(zhuǎn)化為浮點(diǎn)值 (Float) 之后再進(jìn)行聚合計(jì)算（Aggregation）；

其次，外部知識(shí)推斷是很必要的，在中間示例中，為了能準(zhǔn)確地為用戶返回答案，模型必須先知道有貸款資格的賬戶類型一定是 “擁有者”（“OWNER”），這代表巨大的數(shù)據(jù)庫內(nèi)容背后隱藏的奧秘有時(shí)需要外部知識(shí)和推理來揭示；

最后，需要考慮查詢執(zhí)行效率。在右側(cè)示例中，采用更高效的 SQL 查詢可以顯著提高速度，這對(duì)于工業(yè)界來講具有很大價(jià)值，因?yàn)橛脩舨粌H期待寫出正確的 SQL，還期待 SQL 執(zhí)行的高效，尤其是在大型數(shù)據(jù)庫的情況下；

數(shù)據(jù)標(biāo)注

BIRD 在標(biāo)注的過程中解耦了問題生成和 SQL 標(biāo)注。同時(shí)加入專家來撰寫數(shù)據(jù)庫描述文件，以此幫助問題和 SQL 標(biāo)注人員更好的理解數(shù)據(jù)庫。

1. 數(shù)據(jù)庫采集：作者從開源數(shù)據(jù)平臺(tái)（如 Kaggle 和 CTU Prague Relational Learning Repository）收集并處理了 80 個(gè)數(shù)據(jù)庫。通過收集真實(shí)表格數(shù)據(jù)、構(gòu)建 ER 圖以及設(shè)置數(shù)據(jù)庫約束等手動(dòng)創(chuàng)建了 15 個(gè)數(shù)據(jù)庫作為黑盒測(cè)試，來避免當(dāng)前數(shù)據(jù)庫被當(dāng)前的大模型學(xué)習(xí)過。BIRD 的數(shù)據(jù)庫包含了多個(gè)領(lǐng)域的模式和值， 37 個(gè)領(lǐng)域，涵蓋區(qū)塊鏈、體育、醫(yī)療、游戲等。

2. 問題收集：首先作者雇傭?qū)＜蚁葹閿?shù)據(jù)庫撰寫描述文件，該描述文件包括完整的表明列名、數(shù)據(jù)庫值的描述，以及理解值所用到的外部知識(shí)等。然后招募了 11 個(gè)來自美國，英國，加拿大，新加坡等國家的 native speaker 為 BIRD 產(chǎn)生問題。每一位 speaker 都至少具備本科及以上的學(xué)歷。

3.SQL 生成：面向全球招募了由數(shù)據(jù)工程師和數(shù)據(jù)庫課程學(xué)生組成的標(biāo)注團(tuán)隊(duì)為 BIRD 生成 SQL。在給定數(shù)據(jù)庫和參考數(shù)據(jù)庫描述文件的情況下，標(biāo)注人員需生成 SQL 以正確回答問題。采用雙盲（Double-Blind）標(biāo)注方法，要求兩位標(biāo)注人員對(duì)同一個(gè)問題進(jìn)行標(biāo)注。雙盲標(biāo)注可以最大程度減少單一標(biāo)注人員所帶來的錯(cuò)誤。

4. 質(zhì)量檢測(cè)：質(zhì)量檢測(cè)分為結(jié)果執(zhí)行的有效性和一致性兩部分。有效性不僅要求執(zhí)行的正確性，還要求執(zhí)行結(jié)果不能是空值（NULL）。專家將逐步修改問題條件，直至 SQL 執(zhí)行結(jié)果有效。

5. 難度劃分：text-to-SQL 的難度指標(biāo)可以為研究人員提供優(yōu)化算法的參考。Text-to-SQL 的難度不僅取決于 SQL 的復(fù)雜程度，還與問題難度、額外知識(shí)易理解程度以及數(shù)據(jù)庫復(fù)雜程度等因素有關(guān)。因此作者要求 SQL 標(biāo)注人員在標(biāo)注過程中對(duì)難易程度進(jìn)行評(píng)分，并將難度分為三類：簡(jiǎn)單、適中和具有挑戰(zhàn)性。

數(shù)據(jù)統(tǒng)計(jì)

1. 問題類型統(tǒng)計(jì)：?jiǎn)栴}分為兩大類，基礎(chǔ)問題類型（Fundamental Type）和推理問題類型（Reasoning Type）?；A(chǔ)問題類型包括傳統(tǒng) Text-to-SQL 數(shù)據(jù)集中涵蓋的問題類型，而推理問題類型則包括需要外部知識(shí)來理解值的問題：

2. 數(shù)據(jù)庫分布：作者用 sunburst 圖顯示了數(shù)據(jù)庫 domain 及其數(shù)據(jù)量大小之間的關(guān)系。越大的半徑意味著，基于該數(shù)據(jù)庫的 text-SQL 較多，反之亦然。越深的顏色則是指該數(shù)據(jù)庫 size 越大，比如 donor 是該 benchmark 中最大的數(shù)據(jù)庫，所占空間: 4.5GB。

3.SQL 分布：作者通過 SQL 的 token 數(shù)量，關(guān)鍵詞數(shù)量，n-gram 類型數(shù)量，JOIN 的數(shù)量等 4 個(gè)維度來證明 BIRD 的 SQL 是迄今為止最多樣最復(fù)雜的。

評(píng)價(jià)指標(biāo)

1. 執(zhí)行準(zhǔn)確率：對(duì)比模型預(yù)測(cè)的 SQL 執(zhí)行結(jié)果與真實(shí)標(biāo)注 SQL 執(zhí)行結(jié)果的差異；

2. 有效效率分?jǐn)?shù)：同時(shí)考慮 SQL 的準(zhǔn)確性與高效性，對(duì)比模型預(yù)測(cè)的 SQL 執(zhí)行速度與真實(shí)標(biāo)注 SQL 執(zhí)行速度的相對(duì)差異，將運(yùn)行時(shí)間視為效率的主要指標(biāo)。

實(shí)驗(yàn)分析

作者選擇了在之前基準(zhǔn)測(cè)試中，表現(xiàn)突出的訓(xùn)練式 T5 模型和大型語言模型（LLM）作為基線模型：Codex（code-davinci-002）和 ChatGPT（gpt-3.5-turbo）。為了更好地理解多步推理是否能激發(fā)大型語言模型在真實(shí)數(shù)據(jù)庫環(huán)境下的推理能力，還提供了它們的思考鏈版本（Chain-of-Thought）。并在兩種設(shè)置下測(cè)試基線模型：一種是完全的 schema 信息輸入，另一種是人類對(duì)涉及問題的數(shù)據(jù)庫值的理解，總結(jié)成自然語言描述（knowledge evidence）輔助模型理解數(shù)據(jù)庫。

作者給出了一些結(jié)論：

1. 額外知識(shí)的增益：增加對(duì)數(shù)據(jù)庫值理解的知識(shí)（knowledge evidence）有明顯的效果提升，這證明在真實(shí)的數(shù)據(jù)庫場(chǎng)景中，僅依賴語義解析能力是不夠的，對(duì)數(shù)據(jù)庫值的理解會(huì)幫助用戶更準(zhǔn)確地找到答案。

2. 思維鏈不一定完全有益：在模型沒有給定數(shù)據(jù)庫值描述和零樣本（zero-shot）情況下，模型自身的 COT 推理可以更準(zhǔn)確地生成答案。然而，當(dāng)給定額外的知識(shí)（knowledge evidence）后，讓 LLM 進(jìn)行 COT，發(fā)現(xiàn)效果并不顯著，甚至?xí)陆?。因此在這個(gè)場(chǎng)景中， LLM 可能會(huì)產(chǎn)生知識(shí)沖突。如何解決這種沖突，使模型既能接受外部知識(shí)，又能從自身強(qiáng)大的多步推理中受益，將是未來重點(diǎn)的研究方向。

3. 與人類的差距：BIRD 還提供了人類指標(biāo)，作者以考試的形式測(cè)試標(biāo)注人員在第一次面對(duì)測(cè)試集的表現(xiàn)，并將其作為人類指標(biāo)的依據(jù)。實(shí)驗(yàn)發(fā)現(xiàn)，目前最好的 LLM 距離人類仍有較大的差距，證明挑戰(zhàn)仍然存在。作者執(zhí)行了詳細(xì)的錯(cuò)誤分析，給未來的研究提供了一些潛在的方向。

結(jié)論

LLM 在數(shù)據(jù)庫領(lǐng)域的應(yīng)用將為用戶提供更智能、更便捷的數(shù)據(jù)庫交互體驗(yàn)。BIRD 的出現(xiàn)將推動(dòng)自然語言與真實(shí)數(shù)據(jù)庫交互的智能化發(fā)展，為面向真實(shí)數(shù)據(jù)庫場(chǎng)景的 text-to-SQL 技術(shù)提供了進(jìn)步空間，有助于研究人員開發(fā)更先進(jìn)、更實(shí)用的數(shù)據(jù)庫應(yīng)用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)庫

數(shù)據(jù)庫

+關(guān)注

關(guān)注
7

文章
3922

瀏覽量
66154
自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
292

瀏覽量
13652
阿里達(dá)摩院

阿里達(dá)摩院

+關(guān)注

關(guān)注
0

文章
30

瀏覽量
3453
LLM

LLM

+關(guān)注

關(guān)注
1

文章
325

瀏覽量
827

原文標(biāo)題：當(dāng)LLM遇到Database：阿里達(dá)摩院聯(lián)合HKU推出Text-to-SQL新基準(zhǔn)?

文章出處：【微信號(hào)：AI智勝未來，微信公眾號(hào)：AI智勝未來】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

當(dāng)LLM遇到Database：阿里達(dá)摩院聯(lián)合HKU推出Text-to-SQL新基準(zhǔn)?

評(píng)論