日韩有码偷拍欧美,99999碰碰碰精品视频,国产无码AV中文字幕

CMU 和 Facebook 聯(lián)合打造的史上最強德州撲克 AI “Pluribus”在六人德州撲克這項復(fù)雜游戲中擊敗了頂級人類玩家。今天，Science雜志以封面重磅的形式發(fā)表了該研究論文，詳細描述了Pluribus的策略。

前不久，一款名叫 “Pluribus” 的 AI 撲克牌機器人在六人無限注德州撲克這項復(fù)雜游戲中，碾壓了人類職業(yè)選手！

這是 AI 首次在規(guī)模超過兩人的復(fù)雜對局中擊敗頂級人類玩家。

“Pluribus” 是CMU 和 Facebook 聯(lián)合打造的史上最強德州撲克 AI，重點解決了多人對局環(huán)境下的非零和博弈和隱藏信息推理問題，是該領(lǐng)域的一個重大突破。

今天，“Pluribus”的論文更是以封面的形式登上Science雜志！

來自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授，在論文中詳細解讀了“Pluribus”的策略。

作者表示，撲克一直是一個具有挑戰(zhàn)性的問題，過去AI在這類基準(zhǔn)測試中取得的成功僅限于兩人參與的游戲。然而，傳統(tǒng)上玩撲克的人不止兩個人。多人撲克是一個公認(rèn)的AI里程碑。

“Pluribus”AI在六人無限制注德?lián)渲姓宫F(xiàn)了比頂級人類專業(yè)玩家更強大的技能。

接下來，新智元帶來這篇論文的解讀，完整論文可點擊文末鏈接查看。

基于MCCFR的“藍圖”策略

三人或三人以上的博弈對博弈論提出了挑戰(zhàn)。對于兩個玩家的零和博弈，存在這樣一種策略，即沒有玩家可以通過切換到不同的策略來提高他們的機會。這種所謂的納什均衡被認(rèn)為是博弈的一個解。

但對于多人游戲，期望獎勵可能因納什均衡的不同而有所不同。保證收斂到納什均衡的快速算法，例如虛擬遺憾最小化算法(CFR)，在多人游戲中可能失效。盡管如此，CFR在一些多人游戲領(lǐng)域仍顯示出良好的經(jīng)驗表現(xiàn)。

Pluribus首先通過自我游戲(self-play)來學(xué)習(xí)通用技巧，我們稱之為“藍圖”(blueprint)策略。

然后，在實際游戲中，它根據(jù)游戲的當(dāng)前狀態(tài)計算一個實時策略來細化blueprint策略。Pluribus程序通過名為Monte Carlo CFR (MCCFR)的CFR變體學(xué)習(xí)blueprint策略，并進行一些改進。

Pluribus會反復(fù)模擬所有玩家使用相同策略的撲克手牌；在每一手牌之后，它會遞歸地檢查每個決策，并與在相同情況下可能選擇的其他操作相比，評估該決策的預(yù)期結(jié)果。

為了提高Pluribus中MCCFR算法的效率，作者在訓(xùn)練的早期階段引入了linear weighted discounting，并在訓(xùn)練的后期對negative-regret行為進行策略剪枝。

系統(tǒng)中最復(fù)雜的部分是實時策略組件。為了處理不完美信息，Pluribus執(zhí)行嵌套搜索，維護搜索樹的根節(jié)點和每個玩家持有的牌的根節(jié)點的概率分布，前提是假設(shè)所有玩家使用相同的(已知的)策略。

為了有效評估葉節(jié)點，Pluribus考慮了blueprint 策略的四種不同變體。

在Abstraction機制中，Pluribus通過將類似的情況打包在一起，減少了關(guān)于是否跟注(call)、加注(raise)或棄牌(fold)的決策點的數(shù)量。使用蒙特卡羅虛擬遺憾最小化(MCCFR)，將撲克游戲中樹搜索的復(fù)雜性從一個棘手的問題降低到一個可解決的問題。

真實游戲

Pluribus需要為每個場景提供一個動作(跟注、加注或棄牌)。

抽象游戲

類似的方案，比如高牌9和高牌10一起。

抽象策略

Pluribus使用MCCFR通過操作將每個bucket映射到一個分布。

真實策略

每個方案都根據(jù)其bucket的抽象策略映射到操作上的分布。

對于大型復(fù)雜的游戲，狀態(tài)和動作的抽象可以用來抑制搜索樹的增長。這對于完整的六人無限德州撲克游戲來說是必要的，因為德?lián)涮^復(fù)雜而無法直接搜索。

相反，如上面的示意圖所示，Pluribus模擬了一個更簡單的游戲版本，將類似的決策點組合在一起，并消除了一些操作。

“賭神”AI訓(xùn)練只需144美元

最后，Pluribus的blueprint策略是在64核服務(wù)器上在8天內(nèi)計算出來的，總共使用了12400個CPU核心小時，所需內(nèi)存小于512 GB。按照當(dāng)前的云計算費用，這花費了大約144美元。

這與最近其他所有的超級AI里程碑游戲形成了鮮明的對比，那些AI使用了大量的服務(wù)器和/或GPU集群。更多的內(nèi)存和計算可以支持更細粒度的blueprint，這將帶來更好的性能，但也會導(dǎo)致Pluribus使用更多內(nèi)存或在實時搜索變慢。

研究人員將blueprint策略抽象的大小設(shè)置為允許Pluribus在一臺內(nèi)存不超過128GB的機器上實時運行，同時在內(nèi)存中存儲blueprint策略的壓縮形式。

由于無限德州撲克的規(guī)模和復(fù)雜性，整個游戲的blueprint 策略必然是粗粒度的。Pluribus只在第一輪投注(四次投注)中根據(jù)這個blueprint策略進行操作，其中決策點的數(shù)量足夠少，以至于blueprint策略可以不使用信息抽象，并且在操作抽象中進行了很多操作。

在第一輪之后(甚至在第一輪中，如果對手選擇的賭注大小與blueprint action抽象中的大小完全不同)，Pluribus將進行實時搜索，以確定針對當(dāng)前情況的更好、更細粒度的策略。

結(jié)論

self play 的形式與搜索的形式相結(jié)合，在完全信息的二人零和博弈中取得了許多引人注目的成功。然而，現(xiàn)實世界中的大多數(shù)戰(zhàn)略交互都包含隱藏的信息和兩個以上的參與者。這使得這個問題在理論和實踐上都有很大的不同和困難。

為多人德?lián)溟_發(fā)一個超級AI是該領(lǐng)域的一個公認(rèn)的里程碑。在本文中，我們描述了Pluribus，一個AI，能夠在六人無限注德州撲克中擊敗人類專業(yè)玩家。

Pluribus的成功表明，盡管對多人博弈的性能缺乏已知的強有力的理論保證，但仍存在大規(guī)模、復(fù)雜的多人博弈不完全信息設(shè)置，在這種情況下，精心構(gòu)造的self play搜索算法可以生成超越人類的策略。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關(guān)注

關(guān)注
213

文章
29730

瀏覽量
212839
算法

算法

+關(guān)注

關(guān)注
23

文章
4709

瀏覽量
95359
Facebook

Facebook

+關(guān)注

關(guān)注
3

文章
1432

瀏覽量
56724

原文標(biāo)題：Science封面重磅：CMU、Facebook聯(lián)合打造“賭神”AI，六人德?lián)鋼魯∪祟?/p>

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

基于MCCFR的“藍圖”策略

評論