一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI智能體的能力還會繼續(xù)提高嗎?

DPVg_AI_era ? 來源:lq ? 2019-06-02 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

雖然人類已經(jīng)無望在電子競技中打敗AI多智能體,但DeepMind的研究仍在繼續(xù)往前推進。最近他們公布了在強化學(xué)習(xí)方面的最新進展,并對未來進行了展望。AI智能體的能力還會繼續(xù)提高嗎?會有極限嗎?

是的是的我們都知道,已經(jīng)沒有什么電子競技能夠讓人類抱有哪怕1%穩(wěn)贏的希望了。但是!你有沒有想過,AI會不會有一個極限?它的潛力還有多少,無窮大?還是最終止步于某個境界?DeepMind的科學(xué)家也想知道。

他們最近更新了博客,以雷神之錘為例,為我們重新介紹了強化學(xué)習(xí)的最新發(fā)展、AI在《雷神之錘3·奪旗》中達到了什么樣的程度,以及未來的期望。

多智能體最大的挑戰(zhàn):既要獨自打拼,還要團隊協(xié)作

掌握多人游戲中涉及到的策略、戰(zhàn)術(shù)、團隊配合,是AI研究的關(guān)鍵挑戰(zhàn)。而DeepMind的科學(xué)家已經(jīng)將AI調(diào)教到了和人類相當(dāng)?shù)乃?,這一點在《雷神之錘3·奪旗》體現(xiàn)的淋漓盡致。

AI智能體在游戲中,無論是跟同類打配合,還是跟人類組團,完全天衣無縫,表現(xiàn)的不像個機器人。DeepMind的科學(xué)家已經(jīng)在籌劃將奪旗中的方法,應(yīng)用在雷神之錘3的全部游戲模式中。

Quake III有非常多的游戲模式。自身提供4種,分別是Free For All(競技場模式)、Team Deathmatch(紅藍兩隊對戰(zhàn)模式)、Tournament(Duel)(單挑模式)、奪旗(紅藍兩隊奪旗模式)。其他包括MOD和以其開源游戲引擎衍生出的獨立游戲也非常多。

https://zh.wikipedia.org/wiki/%E9%9B%B7%E7%A5%9E%E4%B9%8B%E9%94%A4III%E7%AB%9E%E6%8A%80%E5%9C%BA

作為社群生物,我們幾十億人類共同生活在同一個地球上,每個人都有自己獨立的目標(biāo)和行為,但仍然能夠通過團隊、組織和社會聚集在一起,展示出令人驚嘆的集體智慧。這樣的設(shè)置,我們稱之為多智能體學(xué)習(xí):每個智能體獨立行動,同時要學(xué)會與其他智能體的互動以及合作。

參考系都是動態(tài)的,自由度非常高。想想我們?nèi)祟愔g團隊配合的難度,就知道設(shè)計這樣的多智能體有多難了!

多智能體克服難題的秘訣

具體到《雷神之錘3·奪旗》中,智能體面臨的挑戰(zhàn)是直接從原始像素中學(xué)習(xí)以產(chǎn)生動作。這種復(fù)雜性使得第一人稱多人游戲成為AI社區(qū)內(nèi)富有成效且活躍的研究領(lǐng)域。

奪旗原本是一項廣受歡迎的戶外運動,被廣泛的應(yīng)用于電子游戲中。在一張給定的地圖中,紅藍雙方保護自己的旗子并搶奪對方旗子,5分鐘時間內(nèi),奪旗次數(shù)最多的隊伍獲勝。在游戲中,還可以標(biāo)記敵方隊員并將其送回出生點。

越是簡單的規(guī)則,越能衍生出多種多樣的玩法,在人類來說是增加了趣味性,在多智能體來講就是增加了難度。為了繼續(xù)刁難多智能體,游戲地圖被設(shè)置成每局一換,以防止多智能體靠著優(yōu)于人類的記憶來獲得地利優(yōu)勢。

多智能體應(yīng)對時局變化的訣竅,來自基于強化學(xué)習(xí)的三個概念:

訓(xùn)練一組多智能體而非只訓(xùn)練單一個體,使其能夠在游戲中互相學(xué)習(xí),提供多樣化的隊友和對手

每個智能體都學(xué)習(xí)自己的內(nèi)部獎勵信號,刺激智能體產(chǎn)生他們自己的內(nèi)在目標(biāo)比如搶到旗子。然后使用雙層優(yōu)化流程直接優(yōu)化智能體的內(nèi)部獎勵以獲勝,同時利用內(nèi)部獎勵的強化學(xué)習(xí)來了解智能體的政策。

智能體以快速和慢速兩種速度運行,這提高了它們使用內(nèi)存和生成一致動作序列的能力

由此產(chǎn)生的智能體,被稱為For The Win(獨孤求勝)智能體,學(xué)會了以非常高的水平來玩奪旗。至關(guān)重要的是,學(xué)到的智能體政策,對地圖的大小、隊友的數(shù)量以及團隊中的其他玩家都很有用。

DeepMind組織了40個人,和多智能體一起隨機組隊。最終獨孤求勝智能變得比強基線方法強大得多,超過了人類玩家的勝率。事后調(diào)查顯示,智能體相比我們?nèi)祟?,更善于打配合!所以阻礙人類勝利的關(guān)鍵是人類不會好好打配合咯。

智能體在訓(xùn)練期間的游戲表現(xiàn)。我們訓(xùn)練的新智能體FTW游戲模式下的Elo得分比人類玩家和自游戲+ RS、自游戲的基線方法更高,該分?jǐn)?shù)反映出游戲獲勝的概率。

除了對游戲表現(xiàn)進行評估之外,了解這些智能體的行為和內(nèi)部表示的復(fù)雜度也很重要。

為了理解智能體如何表示游戲狀態(tài),我們來看一下在平面上表示的智能體神經(jīng)網(wǎng)絡(luò)的激活模式。下圖中的點集群表示在游戲期間與附近表示類似激活模式的點的游戲情況。這些點按照智能體發(fā)現(xiàn)自己的高級CTF游戲狀態(tài)著色:在哪個房間?旗幟的狀態(tài)是什么?可以看到哪些隊友和對手?我們觀察到相同顏色的聚類,表明智能體以類似的方式表示類似的高級游戲狀態(tài)。

我們的智能體在游戲世界中的表示。在上圖中,根據(jù)神經(jīng)的相似程度繪制出給定時間的神經(jīng)激活模式:圖中兩點在空間中距離越近,表明它們的激活模式越相似。然后根據(jù)實時比賽情況對它們進行上色:顏色相同,表示情況相同。這些神經(jīng)激活模式是有組織的,形成了顏色簇,表明智能體以刻板、有組織的方式表示出有意義的游戲玩法。訓(xùn)練后的智能體甚至展示了一些人工神經(jīng)元,用于直接針對游戲中的特定情形。

智能體從未被告知有關(guān)游戲規(guī)則的任何內(nèi)容,但卻了解基本的游戲概念,并對CTF產(chǎn)生了有效的直覺。事實上,我們可以找到直接為某些最重要的游戲狀態(tài)編碼的特定神經(jīng)元,例如在智能體一方的旗子被奪時激活的神經(jīng)元,或者當(dāng)智能體的隊友拿著旗幟時激活的神經(jīng)元。本文對此提供了進一步的分析,包括了智能體對記憶和視覺注意力的應(yīng)用。

超強智能體:強加反應(yīng)延遲,游戲中仍然勝過人類

我們的智能體在游戲中表現(xiàn)如何?首先,它們的反應(yīng)時間非常短。由于人類的生物信號傳導(dǎo)速度較慢,人類處理和作用于感官輸入的速度也就相對較慢。因此,我們的智能體在游戲中的卓越表現(xiàn),可能是因為它們具備更快的視覺處理能力和運動控制的結(jié)果。

然而,在我們?nèi)藶榻档土酥悄荏w的瞄準(zhǔn)精度和反應(yīng)時間后,發(fā)現(xiàn)這其實只是其表現(xiàn)優(yōu)秀的其中一個因素。在進一步的研究中,我們訓(xùn)練了內(nèi)置延遲約四分之一秒(267毫秒)的智能體,也就是說,它們在觀察世界之前存在267毫秒的延遲,這與人類游戲玩家的反應(yīng)時間差不多。但這些自帶反應(yīng)延時的智能體仍然在游戲中的表現(xiàn)仍然優(yōu)于人類玩家,后者的勝率只有21%。

人類玩家面對響應(yīng)延遲的智能體的勝率仍然很低,這表明,即使被加上了與人類相當(dāng)?shù)姆磻?yīng)延時,智能體的游戲表現(xiàn)依然勝過人類玩家。此外,通過查看人類和相應(yīng)延時的智能體的平均游戲事件數(shù)量,雙方的標(biāo)記事件數(shù)量差不多,表明這些智能體在這方面沒有占據(jù)優(yōu)勢。

通過無監(jiān)督學(xué)習(xí),我們建立了代理人和人類的典型行為,發(fā)現(xiàn)智能體實際上學(xué)習(xí)了類似人類的行為,比如跟隨隊友并在對手的基地安營扎寨等。

訓(xùn)練后的智能體做出的幾種行為:防守己方基地、騷擾敵方基地、跟隨隊友。

這些行為在強化學(xué)習(xí)的訓(xùn)練過程中逐步出現(xiàn),智能體能夠逐漸學(xué)會以更加互補的方式進行合作。

一群獨孤求勝智能體的訓(xùn)練進程。左上角:30個智能體的Elo評分,它們之間可以互相訓(xùn)練和進化。右上:進化事件樹。下圖顯示了在整個智能體訓(xùn)練過程中知識進展、一些內(nèi)部獎勵機制和行為概率。

《星際爭霸2》并不是極限,多智能體將繼續(xù)前進

AI智能體在《雷神之錘》中的成功經(jīng)驗,被DeepMind應(yīng)用在更復(fù)雜的即時戰(zhàn)略游戲中。比如基于人口信息學(xué)的多智能體強化學(xué)習(xí),構(gòu)成了面向《星際爭霸2》的AlphaStar智能體構(gòu)建的基礎(chǔ)。這款游戲被稱為“人類最后的尊嚴(yán)”,但最終也沒能擋住AIphaStar稱霸的腳步。

而且,《星際爭霸2》不會成為AI多智能體能力的極限,DeepMind還在不斷給多智能體加大難度,利用多智能體訓(xùn)練中總結(jié)出的經(jīng)驗,用于開發(fā)高魯棒性的、甚至可以與人類合作的強大智能體。

智能體在全尺寸地圖上玩《雷神之錘3》其他多人游戲模式

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279627
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    303

    瀏覽量

    11078
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    269

    瀏覽量

    11598

原文標(biāo)題:DeepMind制霸《雷神之錘3》!碾壓人類的超級多智能體這樣訓(xùn)練

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI耳機邁入智能時代,2037年65%應(yīng)用將為智能驅(qū)動

    近期發(fā)布的TWS耳機。隨著智能的到來,AI耳機行業(yè)進入新的發(fā)展階段。 ? 基礎(chǔ)NLP 大模型能力差距縮小,2037 年65% 應(yīng)用將為智能
    的頭像 發(fā)表于 05-24 01:15 ?6155次閱讀
    <b class='flag-5'>AI</b>耳機邁入<b class='flag-5'>智能</b><b class='flag-5'>體</b>時代,2037年65%應(yīng)用將為<b class='flag-5'>智能</b><b class='flag-5'>體</b>驅(qū)動

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能

    《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能》是一本為普通人量身打造的AI開發(fā)指南。它不僅深入淺出地講解了Agent的概念和發(fā)展,還通過詳細(xì)的工具介紹和實戰(zhàn)案例,幫助讀者快
    發(fā)表于 03-18 12:03

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+初品Agent

    期待中的《零基礎(chǔ)開發(fā)AI Agent——手把手教你用扣子做智能》終于寄到了,該書由葉濤、 管鍇、張心雨完成,并由電子工業(yè)出版社出版發(fā)行。 全書分為三個部分,即入門篇、工具篇及實踐篇。由此可見這是
    發(fā)表于 04-22 11:51

    全球首家!訊飛AI電話能力平臺開放合作!

    能力的機器人??拼笥嶏wAI電話機器人平臺使得傳統(tǒng)客服平臺能夠在最短的時間內(nèi),以極少成本集成訊飛AI電話機器人全部功能,為自己產(chǎn)品新增一個聰明的人工智能機器人。幫助平臺客戶實現(xiàn)業(yè)務(wù)知識自
    發(fā)表于 09-10 09:47

    能力AI為腦 · AR為眼,訊飛能力星云助你看見智能未來

    星云計劃——除了自研能力,科大訊飛還會與業(yè)內(nèi)優(yōu)秀的技術(shù)廠商進行合作,實現(xiàn)戰(zhàn)略互補。訊飛開放平臺經(jīng)過8年的積累,現(xiàn)已開放近百項AI能力,賦能88萬開發(fā)者團隊。在
    發(fā)表于 09-14 10:23

    用嵌入式AI技術(shù)提升智能硬件應(yīng)用能力

    ,更有人工智能開放平臺MAGIK。X2000 建立在其圖像、視頻、互聯(lián)等各方面的強大的能力組合之上的 AI 能力,必將使其成為智能互聯(lián)時代不
    發(fā)表于 10-09 14:33

    AI 人工智能的未來在哪?

    人工智能、AI智能大模型已經(jīng)孵化;繁衍過程將突飛猛進,ChatGPT已經(jīng)上線。 世界首富馬斯克認(rèn)為AI對人類是一種威脅;谷歌前CEO施密特認(rèn)為AI
    發(fā)表于 06-27 10:48

    AI智能呼叫中心

    可以自動識別和響應(yīng)來電,通過分析用戶的語音、文字和情緒等信息,并給出針對性的應(yīng)答,與傳統(tǒng)的人工處理相比,AI智能呼叫中心能夠?qū)崿F(xiàn)24/7不間斷的服務(wù),大幅提高了處理效率和用戶滿意度。二、個性化服務(wù)
    發(fā)表于 09-20 17:53

    使用全新NVIDIA AI Blueprint開發(fā)視覺AI智能

    提高生產(chǎn)力、優(yōu)化流程和創(chuàng)造更加安全的空間,埃森哲、戴爾科技和聯(lián)想等公司正在使用全新 NVIDIA AI Blueprint 開發(fā)視覺 AI 智能
    的頭像 發(fā)表于 11-06 13:58 ?1047次閱讀

    AI智能是什么_AI智能如何重塑企業(yè)業(yè)務(wù)流程

    AI技術(shù)的飛速發(fā)展令人矚目。就在企業(yè)領(lǐng)導(dǎo)者們剛開始熟悉AI助手時,AI智能Agent(國際版)已經(jīng)迅速成為討論的焦點。它們之所以受到廣泛關(guān)
    的頭像 發(fā)表于 12-19 17:55 ?899次閱讀

    AI智能套件

    智能解決方案。一、應(yīng)用領(lǐng)域AI智能套件具備自然語言處理、機器學(xué)習(xí)以及人機交互能力,可以滲入用戶的日常生活與工作環(huán)境,對傳統(tǒng)設(shè)備進行升級。
    發(fā)表于 02-25 16:48 ?0次下載

    AI智能包含哪些組件

    AI 智能是先進的 AI 系統(tǒng),旨在根據(jù)高級目標(biāo)自主進行推理,制定計劃并執(zhí)行復(fù)雜任務(wù)。
    的頭像 發(fā)表于 03-04 13:45 ?897次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>包含哪些組件

    NVIDIA發(fā)布連接AI智能AI-Q Blueprint

    AI 智能作為新型的數(shù)字化勞動力,正在改變業(yè)務(wù)運營模式、自動執(zhí)行復(fù)雜任務(wù)、釋放全新效能。如今,借助協(xié)作能力,這些智能
    的頭像 發(fā)表于 03-26 15:39 ?438次閱讀
    NVIDIA發(fā)布連接<b class='flag-5'>AI</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>的<b class='flag-5'>AI</b>-Q Blueprint

    什么是AI智能

    在當(dāng)今數(shù)字化迅速發(fā)展的時代,AI智能作為技術(shù)進步的重要標(biāo)志之一,正逐漸滲透到我們生活的各個方面。簡單來說,AI智能
    的頭像 發(fā)表于 04-16 09:52 ?631次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>

    2025年開啟AI智能規(guī)模應(yīng)用

    2025年,AI 領(lǐng)域的熱議話題已經(jīng)從大語言模型(LLMs)轉(zhuǎn)向了 AI 智能AI Agent)。根據(jù) Gartner 最新預(yù)測,企業(yè)
    的頭像 發(fā)表于 05-09 11:09 ?540次閱讀