2025年4月,斯坦福2025HAI報告重磅發(fā)布。由李飛飛聯(lián)合領(lǐng)導(dǎo)的斯坦福大學(xué)以人為本人工智能研究所(Stanford HAI)發(fā)布了《2025 年人工智能指數(shù)報告》(Artificial Intelligence Index Report 2025)。這份長達(dá) 456 多頁的報告是 Stanford HAI 發(fā)布的第 8 份 AI Index 研究,追蹤了 2024 年全球人工智能(AI)行業(yè)的發(fā)展趨勢。今年的報告新增了對 AI 硬件發(fā)展?fàn)顩r的深入分析、對推理成本的新估算,以及對 AI 出版和專利申請趨勢的分析。他們還引入了有關(guān)企業(yè)采用負(fù)責(zé)任的 AI 實踐的最新數(shù)據(jù),并擴(kuò)大了對 AI 在科學(xué)和醫(yī)學(xué)中日益重要作用的報道。
以下是該報告主要要點:
01. AI在嚴(yán)苛基準(zhǔn)測試中的表現(xiàn)持續(xù)提升
2023年,研究人員引入了新的基準(zhǔn)測試——MMMU、GPQA和SWE-bench,以測試先進(jìn)AI系統(tǒng)的極限。僅僅一年后,其表現(xiàn)大幅提升:在MMMU、GPQA和SWE-bench上的得分分別提高了18.8、48.9和67.3個百分點。除基準(zhǔn)測試外,AI系統(tǒng)在生成高質(zhì)量視頻方面取得了重大進(jìn)展,并且在某些場景下,語言模型智能體甚至在有時間限制的編程任務(wù)中超過了人類。

02. AI日益融入日常生活
從醫(yī)療保健到交通運輸,AI正迅速從實驗室走向日常生活。2023年,美國食品藥品監(jiān)督管理局(FDA)批準(zhǔn)了223種AI賦能的醫(yī)療設(shè)備,而2015年僅為6種。在道路上,自動駕駛汽車已不再是實驗性項目:美國最大的運營商之一Waymo每周提供超過15萬次自動駕駛服務(wù),而百度經(jīng)濟(jì)實惠的Apollo Go機(jī)器人出租車隊現(xiàn)已服務(wù)于中國眾多城市。

03. 企業(yè)全力投入AI,推動創(chuàng)紀(jì)錄的投資和使用,研究持續(xù)顯示其對生產(chǎn)力的強(qiáng)大影響
2024年,美國私人AI投資增長至1091億美元——幾乎是中國93億美元的12倍、英國45億美元的24倍。生成式AI勢頭尤為強(qiáng)勁,全球私人投資達(dá)到339億美元,較2023年增長18.7%。AI的商業(yè)應(yīng)用也在加速:2024年有78%的組織報告在使用AI,高于前一年的55%。與此同時,越來越多的研究證實,AI能提高生產(chǎn)力,并且在大多數(shù)情況下有助于縮小勞動力技能差距。

04. 美國仍在頂級AI模型生產(chǎn)方面領(lǐng)先,但中國正在縮小性能差距
2024年,美國機(jī)構(gòu)推出了40個引人注目的AI模型,而中國為15個,歐洲為3個。盡管美國在數(shù)量上保持領(lǐng)先,但中國模型在質(zhì)量上迅速縮小了差距:在MMLU和HumanEval等主要基準(zhǔn)測試上的性能差異從2023年的兩位數(shù)縮小到2024年的幾乎持平。中國在AI出版物和專利方面繼續(xù)領(lǐng)先。模型開發(fā)日益全球化,中東、拉丁美洲和東南亞也有了引人注目的成果發(fā)布。

05. 負(fù)責(zé)任AI生態(tài)系統(tǒng)不斷發(fā)展——但進(jìn)展不均衡
與AI相關(guān)的事件急劇增加,但在主要工業(yè)模型開發(fā)者中,標(biāo)準(zhǔn)化的負(fù)責(zé)任AI(RAI)評估仍然很少。然而,像HELM Safety、AIR-Bench和FACTS等新基準(zhǔn)為評估事實性和安全性提供了有前景的工具。在企業(yè)中,認(rèn)識到RAI風(fēng)險與采取有意義行動之間仍存在差距。相比之下,各國政府表現(xiàn)出了更強(qiáng)的緊迫感:2024年,全球在AI治理方面的合作加強(qiáng),經(jīng)濟(jì)合作與發(fā)展組織(OECD)、歐盟(EU)、聯(lián)合國(U.N.)和非洲聯(lián)盟(African Union)等組織發(fā)布了專注于透明度、可信度和其他核心負(fù)責(zé)任AI原則的框架。

06. 全球?qū)I的樂觀情緒上升——但地區(qū)差異仍然很大
在中國(83%)、印度尼西亞(80%)和泰國(77%)等國家,絕大多數(shù)人認(rèn)為AI產(chǎn)品和服務(wù)利大于弊。相比之下,加拿大(40%)、美國(39%)和荷蘭(36%)等地的樂觀情緒仍然較低。不過,人們的態(tài)度正在轉(zhuǎn)變:自2022年以來,包括德國(+10%)、法國(+10%)、加拿大(+8%)、英國(+8%)和美國(+4%)在內(nèi)的一些此前持懷疑態(tài)度的國家,樂觀情緒顯著增加。

07. AI變得更高效、更實惠且更易獲取
受日益強(qiáng)大的小型模型推動,性能達(dá)到GPT - 3.5水平的系統(tǒng)的推理成本在2022年11月至2024年10月期間下降了超過280倍。在硬件層面,成本每年下降30%,能效每年提高40%。開源模型正在縮小與閉源模型的差距,在某些基準(zhǔn)測試中,性能差異在短短一年內(nèi)從8%降至僅1.7%。這些趨勢共同迅速降低了先進(jìn)AI的使用門檻。

08. 政府在AI方面加大行動力度——通過監(jiān)管和投資
2024年,美國聯(lián)邦機(jī)構(gòu)推出了59項與AI相關(guān)的法規(guī)——數(shù)量是2023年的兩倍多,且發(fā)布法規(guī)的機(jī)構(gòu)數(shù)量也翻了一番。全球范圍內(nèi),自2023年以來,75個國家在立法中提及AI的次數(shù)增加了21.3%,較2016年增長了九倍。隨著關(guān)注度的提高,各國政府也在大規(guī)模投資:加拿大承諾投入24億美元,中國啟動了475億美元的半導(dǎo)體基金,法國承諾投入1090億歐元,印度承諾投入12.5億美元,沙特阿拉伯的“超越計劃”是一項規(guī)模達(dá)1000億美元的舉措。

09. AI和計算機(jī)科學(xué)教育正在擴(kuò)展——但獲取機(jī)會和準(zhǔn)備程度方面的差距仍然存在
如今,三分之二的國家提供或計劃提供K - 12計算機(jī)科學(xué)(CS)教育——數(shù)量是2019年的兩倍,非洲和拉丁美洲取得了最大進(jìn)展。在美國,過去十年中計算機(jī)科學(xué)學(xué)士學(xué)位畢業(yè)生數(shù)量增長了22%。然而,在許多非洲國家,由于電力等基本基礎(chǔ)設(shè)施存在差距,獲取教育的機(jī)會仍然有限。在美國,81%的K - 12 CS教師認(rèn)為AI應(yīng)成為基礎(chǔ)CS教育的一部分,但不到一半的教師認(rèn)為自己有能力教授相關(guān)內(nèi)容。

10. 行業(yè)在AI領(lǐng)域遙遙領(lǐng)先——但前沿競爭日益激烈
2024年,近90%的引人注目的AI模型來自行業(yè),高于2023年的60%,而學(xué)術(shù)界仍是高被引研究的主要來源。模型規(guī)模繼續(xù)快速增長——訓(xùn)練計算量每五個月翻倍,數(shù)據(jù)集每八個月翻倍,功耗每年翻倍。然而,性能差距正在縮?。号琶谝缓偷谑哪P椭g的Elo技能得分差異在一年內(nèi)從11.9%降至5.4%,排名前兩位的模型之間僅相差0.7%。前沿領(lǐng)域的競爭日益激烈,也越來越擁擠。

11. AI因其科學(xué)的影響榮獲殊榮
AI的重要性日益凸顯,這在重大科學(xué)獎項中得到了體現(xiàn):兩項諾貝爾獎表彰了推動深度學(xué)習(xí)(物理學(xué))及其在蛋白質(zhì)折疊應(yīng)用(化學(xué))方面的工作,圖靈獎則授予了強(qiáng)化學(xué)習(xí)領(lǐng)域的開創(chuàng)性貢獻(xiàn)。

12. 復(fù)雜推理仍是一項挑戰(zhàn)
AI模型在國際數(shù)學(xué)奧林匹克競賽等問題上表現(xiàn)出色,但在PlanBench等復(fù)雜推理基準(zhǔn)測試中仍面臨困難。即使存在可證明的正確解決方案,它們也常常無法可靠地解決邏輯任務(wù),這限制了其在精度至關(guān)重的高風(fēng)險場景中的有效性。

1. 斯坦福大學(xué)《2025人工智能指數(shù)報告》原文來源于:
https://hai.stanford.edu/ai-index/2025-ai-index-report
2. 本文轉(zhuǎn)自上海智慧城市發(fā)展研究院,翻譯由騰訊元寶AI提供支持。
-
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274196 -
人工智能
+關(guān)注
關(guān)注
1804文章
48449瀏覽量
244955 -
語言模型
+關(guān)注
關(guān)注
0文章
557瀏覽量
10596
發(fā)布評論請先 登錄
相關(guān)推薦
IBM發(fā)布2025年X-Force威脅情報指數(shù)報告
Arm發(fā)布人工智能就緒指數(shù)報告
Deepseek引發(fā)算力變革 《2025中國人工智能計算力發(fā)展評估報告》發(fā)布

2025年人工智能會發(fā)生哪些變化
斯坦福大學(xué)Nature Energy:鋰電還是鈉電?

斯坦福研究:電動汽車電池實際壽命比預(yù)估長得多
嵌入式和人工智能究竟是什么關(guān)系?
未來學(xué)家展望 2025 年十大人工智能趨勢

評論