一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AGIEval:準(zhǔn)確考察基礎(chǔ)模型類人能力的基準(zhǔn)評(píng)估工具

jf_WZTOguxH ? 來源:AI前線 ? 2023-05-15 15:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對(duì)基礎(chǔ)模型在處理人類任務(wù)時(shí)的一般能力做出準(zhǔn)確評(píng)估,已經(jīng)成為通用人工智能(AGI)開發(fā)和應(yīng)用領(lǐng)域的一大重要問題?;谌斯?shù)據(jù)集的傳統(tǒng)基準(zhǔn)往往無法準(zhǔn)確反映模型能力是否達(dá)到人類水平。

近日,微軟的一個(gè)華人研究團(tuán)隊(duì)發(fā)布了一項(xiàng)新型基準(zhǔn)測(cè)試 AGIEval,這項(xiàng)基準(zhǔn)測(cè)試專門用于對(duì)基礎(chǔ)模型的類人能力做準(zhǔn)確考察(涵蓋高考、法學(xué)入學(xué)考試、數(shù)學(xué)競(jìng)賽和律師資格考試等)。

該研究團(tuán)隊(duì)使用此項(xiàng)基準(zhǔn)評(píng)估了當(dāng)前最先進(jìn)的多個(gè)基礎(chǔ)模型,包括 GPT-4、ChatGPT 和 Text-Davinci-003 等。

令人印象深刻的是,GPT-4 在 SAT、LSAT 和數(shù)學(xué)競(jìng)賽中的表現(xiàn)均超過人類平均水平,在 SAT 數(shù)學(xué)測(cè)試中達(dá)成 95% 的準(zhǔn)確率,在中國高考英語測(cè)試中準(zhǔn)確率亦達(dá)到 92.5%,證明了當(dāng)代基礎(chǔ)模型的非凡性能。

與之對(duì)應(yīng),研究人員發(fā)現(xiàn) GPT-4,在需要復(fù)雜推理或涉及特定領(lǐng)域知識(shí)的任務(wù)中表現(xiàn)尚不理想。

通過對(duì)模型能力(理解、知識(shí)、推理和計(jì)算等)的全面分析,有助于揭示這些模型的優(yōu)勢(shì)和局限性,為增強(qiáng)其通用能力的未來發(fā)展方向提供支持。通過測(cè)試涉及人類認(rèn)知和決策能力的任務(wù),AGIEval 能夠?qū)A(chǔ)模型在現(xiàn)實(shí)場(chǎng)景中的性能做出更可靠、更有意義的評(píng)估。

測(cè)試中的全部數(shù)據(jù)、代碼和模型輸出均通過此 https URL(https://github.com/microsoft/AGIEval)發(fā)布。

AGIEval 項(xiàng)目介紹

AGIEval 是一項(xiàng)考察基礎(chǔ)模型類人能力的基準(zhǔn)測(cè)試,專門用于評(píng)估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力。

該基準(zhǔn)選取 20 種面向普通人類考生的官方、公開、高標(biāo)準(zhǔn)往常和資格考試,包括普通大學(xué)入學(xué)考試(中國高考和美國 SAT 考試)、法學(xué)入學(xué)考試、數(shù)學(xué)競(jìng)賽、律師資格考試、國家公務(wù)員考試等等。

關(guān)于此基準(zhǔn)的完整描述,請(qǐng)參閱論文《AGIEval:準(zhǔn)確考察基礎(chǔ)模型類人能力的基準(zhǔn)評(píng)估工具》(https://arxiv.org/pdf/2304.06364.pdf)。

任務(wù)與數(shù)據(jù)

AGIEval v1.0 包含 20 項(xiàng)任務(wù),具體為 2 項(xiàng)完形填空任務(wù)(高考數(shù)學(xué))和 18 項(xiàng)多選題回答任務(wù)。在選擇題部分,高物理和 JEC-QA 部分對(duì)應(yīng)一個(gè)或多個(gè)正確答案,其余任務(wù)則僅有一個(gè)正確答案。

下表所示,為測(cè)試題目的完整列表。

a48a24c6-f295-11ed-90ce-dac502259ad0.png

可以在 data/v1 文件夾內(nèi)下載到除 JEC-QA 以外的所有后處理數(shù)據(jù)。關(guān)于 JEC-QA 部分,請(qǐng)前往 JEC-QA 網(wǎng)站獲取數(shù)據(jù)。

使用 JEC-QA 訓(xùn)練數(shù)據(jù)的前 1000 個(gè)實(shí)例作為測(cè)試集。所有數(shù)據(jù)集的數(shù)據(jù)格式如下:

{
    "passage": null,
    "question": "設(shè)集合 $A=\{x \mid x \geq 1\}, B=\{x \mid-1-1\}$",
        "(B)$\{x \mid x \geq 1\}$",
        "(C)$\{x \mid-1

其中高考語言、高考英語、兩科 logiqa、全部 LSAT 和 SAT 均可使用 passage 字段。多選任務(wù)的答案保存在 label 字段內(nèi)。完形填空任務(wù)的答案保存在 answer 字段內(nèi)。

我們還在 data/v1/few_shot_prompts 文件中提供了小樣本學(xué)習(xí)的提示詞。

基線系統(tǒng)

我們?cè)?AGIEval v1.0 上評(píng)估了基準(zhǔn)系統(tǒng)的性能?;€系統(tǒng)基于以下模型:text-davinci-003、ChatGPT (gpt-3.5-turbo) 和 GPT-4。您可以按照以下步驟重現(xiàn)測(cè)試結(jié)果:

1.在 openai_api.py 文件中填寫您的 OpenAI API 密鑰。

2.運(yùn)行 run_prediction.py 文件以獲取結(jié)果。

模型輸出

?您可以在 Onedrive 鏈接(https://1drv.ms/u/s!Amt8n9AJEyxcg8YQKFm1rSEyV9GU_A?e=VEfJVS)中下載到基線系統(tǒng)的零樣本、零樣本思維鏈、少樣本和少樣本思維鏈輸出。請(qǐng)注意,我們修復(fù)了 SAT-en 實(shí)例中的 52 處拼寫錯(cuò)誤,并將很快發(fā)布更新后的數(shù)據(jù)集輸出。?

評(píng)估

您可以運(yùn)行 post_process_and_evaluation.py 文件來獲取評(píng)估結(jié)果。

引用

如果您需要在研究中使用 AGIEval 數(shù)據(jù)集或代碼,請(qǐng)引用論文:

@misc{zhong2023agieval,
      title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models},
      author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan},
      year={2023},
      eprint={2304.06364},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

在使用時(shí),請(qǐng)務(wù)必在您的論文中引用所有獨(dú)立數(shù)據(jù)集。我們提供以下引用信息:



@inproceedings{ling-etal-2017-program,
    title = "Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems",
    author = "Ling, Wang  and
      Yogatama, Dani  and
      Dyer, Chris  and
      Blunsom, Phil",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P17-1015",
    doi = "10.18653/v1/P17-1015",
    pages = "158--167",
    abstract = "Solving algebraic word problems requires executing a series of arithmetic operations{---}a program{---}to obtain a final answer. However, since programs can be arbitrarily complicated, inducing them directly from question-answer pairs is a formidable challenge. To make this task more feasible, we solve these problems by generating answer rationales, sequences of natural language and human-readable mathematical expressions that derive the final answer through a series of small steps. Although rationales do not explicitly specify programs, they provide a scaffolding for their structure via intermediate milestones. To evaluate our approach, we have created a new 100,000-sample dataset of questions, answers and rationales. Experimental results show that indirect supervision of program learning via answer rationales is a promising strategy for inducing arithmetic programs.",
}


@inproceedings{hendrycksmath2021,
  title={Measuring Mathematical Problem Solving With the MATH Dataset},
  author={Dan Hendrycks and Collin Burns and Saurav Kadavath and Akul Arora and Steven Basart and Eric Tang and Dawn Song and Jacob Steinhardt},
  journal={NeurIPS},
  year={2021}
}


@inproceedings{Liu2020LogiQAAC,
  title={LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning},
  author={Jian Liu and Leyang Cui and Hanmeng Liu and Dandan Huang and Yile Wang and Yue Zhang},
  booktitle={International Joint Conference on Artificial Intelligence},
  year={2020}
}


@inproceedings{zhong2019jec,
  title={JEC-QA: A Legal-Domain Question Answering Dataset},
  author={Zhong, Haoxi and Xiao, Chaojun and Tu, Cunchao and Zhang, Tianyang and Liu, Zhiyuan and Sun, Maosong},
  booktitle={Proceedings of AAAI},
  year={2020},
}


@article{Wang2021FromLT,
  title={From LSAT: The Progress and Challenges of Complex Reasoning},
  author={Siyuan Wang and Zhongkun Liu and Wanjun Zhong and Ming Zhou and Zhongyu Wei and Zhumin Chen and Nan Duan},
  journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
  year={2021},
  volume={30},
  pages={2201-2216}
}

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48987

    瀏覽量

    249130
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25428
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    9063

原文標(biāo)題:AGIEval:準(zhǔn)確考察基礎(chǔ)模型類人能力的基準(zhǔn)評(píng)估工具

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    VirtualLab Fusion應(yīng)用:具有二維出瞳擴(kuò)展和模型復(fù)雜光波導(dǎo)系統(tǒng)

    評(píng)估。 任務(wù)描述 光導(dǎo)元件 出瞳擴(kuò)展器(EPE)區(qū) 耦出區(qū)域 模型 摘要-組件 系統(tǒng)中不同位置/平面上的場(chǎng) MTF和PSF–計(jì)算 光導(dǎo)后的橫向均勻性評(píng)估 Vi
    發(fā)表于 02-08 09:00

    兩大AI模型性能提升 登上國際榜單

    ,目前位列BFCLLeaderboard總榜單第一。據(jù)悉,榜單BFCLLeaderboard是由加州大學(xué)伯克利分校開發(fā)的評(píng)估LLM工具調(diào)用能力基準(zhǔn)測(cè)試平臺(tái)。作為目前大
    的頭像 發(fā)表于 01-16 12:01 ?903次閱讀
    兩大AI<b class='flag-5'>模型</b>性能提升 登上國際榜單

    SPEC ML基準(zhǔn)測(cè)試新增模算效率指標(biāo)

    和模算效率三大關(guān)鍵指標(biāo)。 作為此次更新的亮點(diǎn)之一,模算效率首次被納入SPEC ML基準(zhǔn)評(píng)測(cè)體系。這一指標(biāo)的加入,旨在填補(bǔ)大模型計(jì)算效率評(píng)測(cè)基準(zhǔn)領(lǐng)域的研究空白,為AI領(lǐng)域的發(fā)展提供更加全面、準(zhǔn)確
    的頭像 發(fā)表于 01-15 14:28 ?488次閱讀

    【「具身智能機(jī)器系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    、醫(yī)療、服務(wù)等領(lǐng)域的應(yīng)用前景更加廣闊,也使得人類能夠更輕松地借助機(jī)器完成復(fù)雜工作。我深刻認(rèn)識(shí)到,大模型技術(shù)正在從根本上改變我們對(duì)機(jī)器能力的認(rèn)知。它們不僅是一種技術(shù)工具,更是推動(dòng)具身智
    發(fā)表于 12-29 23:04

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    內(nèi)為企業(yè)帶來效益。在選擇模型時(shí),需要評(píng)估其性能表現(xiàn)。這包括模型準(zhǔn)確性、響應(yīng)速度、對(duì)話流暢性、情感理解能力等方面??梢酝ㄟ^對(duì)比不同
    發(fā)表于 12-17 16:53

    如何提升ASR模型準(zhǔn)確

    提升ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)模型準(zhǔn)確性是語音識(shí)別技術(shù)領(lǐng)域的核心挑戰(zhàn)之一。以下是一些提升ASR模型準(zhǔn)確性的關(guān)鍵方法: 一、優(yōu)化數(shù)
    的頭像 發(fā)表于 11-18 15:14 ?2315次閱讀

    阿里云開源Qwen2.5-Coder代碼模型系列

    Qwen2.5-Coder-32B-Instruct,在代碼生成領(lǐng)域取得了顯著成就。據(jù)官方介紹,該模型在EvalPlus等十多個(gè)主流的代碼生成基準(zhǔn)測(cè)試中,均刷新了開源模型的得分紀(jì)錄,展現(xiàn)出了卓越的性能。更值得一提的是,Qwen2
    的頭像 發(fā)表于 11-14 11:28 ?972次閱讀

    REF54精密電壓基準(zhǔn)評(píng)估模塊

    電子發(fā)燒友網(wǎng)站提供《REF54精密電壓基準(zhǔn)評(píng)估模塊.pdf》資料免費(fèi)下載
    發(fā)表于 10-30 09:11 ?0次下載
    REF54精密電壓<b class='flag-5'>基準(zhǔn)</b><b class='flag-5'>評(píng)估</b>模塊

    如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確

    評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性是一個(gè)復(fù)雜的過程,因?yàn)樗婕暗蕉鄠€(gè)因素,包括但不限于數(shù)據(jù)的質(zhì)量和多樣性、模型的訓(xùn)練、上下文的理解、以及輸出內(nèi)容的邏輯一致性。以下是一些評(píng)估 Cha
    的頭像 發(fā)表于 10-25 17:48 ?1141次閱讀

    如何評(píng)估AI大模型的效果

    評(píng)估AI大模型的效果是一個(gè)復(fù)雜且多維度的過程,涉及多個(gè)方面的考量。以下是一些關(guān)鍵的評(píng)估方法和步驟: 一、基準(zhǔn)測(cè)試(Benchmarking) 使用標(biāo)準(zhǔn)數(shù)據(jù)集和任務(wù)來
    的頭像 發(fā)表于 10-23 15:21 ?3046次閱讀

    【每天學(xué)點(diǎn)AI】人工智能大模型評(píng)估標(biāo)準(zhǔn)有哪些?

    OpenAI新模型o1號(hào)稱編程能力8倍殺GPT-4o,MMLU媲美人類專家,MMLU是什么?評(píng)估模型的標(biāo)準(zhǔn)是什么?相信大家在閱讀大模型相關(guān)
    的頭像 發(fā)表于 10-17 16:49 ?1404次閱讀
    【每天學(xué)點(diǎn)AI】人工智能大<b class='flag-5'>模型</b><b class='flag-5'>評(píng)估</b>標(biāo)準(zhǔn)有哪些?

    怎么判斷電源的最大負(fù)載能力?帶載測(cè)試方式助您準(zhǔn)確評(píng)估

    帶載能力指電源在其規(guī)定條件下,所能承受的最大負(fù)載能力。電源帶載測(cè)試就是對(duì)電源模塊的負(fù)載能力進(jìn)行測(cè)試,評(píng)估電源在各負(fù)載條件下的輸出穩(wěn)定性和可靠性。帶載測(cè)試是電源模塊設(shè)計(jì)和生產(chǎn)過程中的重要
    的頭像 發(fā)表于 09-29 16:43 ?2525次閱讀
    怎么判斷電源的最大負(fù)載<b class='flag-5'>能力</b>?帶載測(cè)試方式助您<b class='flag-5'>準(zhǔn)確</b><b class='flag-5'>評(píng)估</b>

    OpenAI與Anthropic新模型將受美政府評(píng)估

    近日,美國政府宣布了一項(xiàng)重要合作,旨在加強(qiáng)人工智能安全監(jiān)管。根據(jù)協(xié)議,OpenAI與Anthropic兩大AI領(lǐng)軍企業(yè)同意,在推出新的AI模型之前,先將其提交給美國人工智能安全問題研究所進(jìn)行評(píng)估。這一舉措旨在確保新模型
    的頭像 發(fā)表于 08-30 15:35 ?563次閱讀

    NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測(cè)試(MTEB)涵蓋 56 項(xiàng)嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?2486次閱讀
    NVIDIA文本嵌入<b class='flag-5'>模型</b>NV-Embed的精度<b class='flag-5'>基準(zhǔn)</b>

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    習(xí)語言的表達(dá)方式和生成能力。通過預(yù)測(cè)文本中缺失的部分或下一個(gè)詞,模型逐漸掌握語言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語言模型通?;赥ransformer架
    發(fā)表于 08-02 11:03