一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI賭神贏的背后,只是8天的訓(xùn)練

mK5P_AItists ? 來源:YXQ ? 2019-08-15 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2017年年初,Brain vs AI的德州撲克人機(jī)大戰(zhàn)在卡耐基梅隆大學(xué)(CMU)落幕,由4名人類職業(yè)玩家組成的人類大腦不敵人工智能程序Libratus。

獲勝后人類還遭到了Libratus的無情嘲諷。

但是那時(shí)候Libratus還只是個(gè)只能在1V1局里稱霸的超級(jí)玩家,要說人類最喜歡的6人局這樣的“大場面”,當(dāng)時(shí)的Libratus還沒有拿到入場券。

而就在昨天,F(xiàn)acebook與CMU學(xué)Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人類最常見的無限制德州撲克6人局里,戰(zhàn)勝了人類頂尖選手。

跟還是不跟?高手之間的對(duì)決

Darren Elias(1986年11月18日出生)是一名美國職業(yè)撲克玩家,曾獲得四項(xiàng)世界撲克巡回賽冠軍。

在他與Pluribus的對(duì)決過程中,Darren Elias從來沒有遇到過如此不害怕的對(duì)手。

一個(gè)有經(jīng)驗(yàn)的撲克玩家,當(dāng)有兩個(gè)J(一個(gè)面朝上,另一個(gè)藏起來,一手既不好也不壞)時(shí),都會(huì)謹(jǐn)慎行事。但是Elias的對(duì)手看起來好像不知道該怎么做。即使當(dāng)Elias決定虛張聲勢(bluff),下注時(shí)看起來很有信心,而他的對(duì)手似乎在鼓勵(lì)他繼續(xù)!好像一點(diǎn)都沒有被嚇到。

最后,Elias的虛張聲勢沒有起作用,他輸了。

Elias

正如埃利亞斯先生意識(shí)到的,Pluribus知道什么時(shí)候該虛張聲勢,也知道別人在虛張聲勢,還知道什么時(shí)候該改變自己的行為,這樣其他玩家就無法確定自己的策略。32歲 Elias先生說: 它確實(shí)做了一些人類很難做到的事情。

贏的背后,只是8天的訓(xùn)練

之前AI和人玩游戲,要么是雙人游戲,如國際象棋、跳棋等,要么就是雙方之間的零和博弈(一方贏一方輸),AI可以在游戲中找到Nash equilibrium strategy(納什平衡)來保證自己不會(huì)輸。

關(guān)于Nash equilibrium strategy(納什平衡)屬于博弈論范疇(注:納什證明了,如果允許混合策略,那么任何一個(gè)博弈,只要參與者數(shù)量是有限的、參與者可以選擇的純策略也是有限的,那么這個(gè)博弈至少有一個(gè)納什均衡)。

以經(jīng)典的“石頭剪刀布”游戲?yàn)槔?,AI可以在游戲中找到對(duì)方的弱點(diǎn)和常出的手勢進(jìn)行學(xué)習(xí),以達(dá)到最終的勝利,而多人撲克意味著玩家數(shù)量的增多,在更復(fù)雜的游戲中,AI難以確定如何與納什均衡相抗衡;采用固定策略不能很快觀察到的對(duì)手的策略傾向,而且需要監(jiān)控到多個(gè)玩家在游戲中策略的轉(zhuǎn)變,這對(duì)于AI多人撲克博弈來說,是一項(xiàng)挑戰(zhàn)。

鑒于多人游戲,如果學(xué)習(xí)多個(gè)玩家的出牌習(xí)慣等特征的訓(xùn)練數(shù)據(jù)集成本過大,這里Pluribus采用的策略是自己與自己博弈,不使用人類對(duì)手的數(shù)據(jù)作為模型訓(xùn)練的輸入。在開始時(shí),隨機(jī)的選擇玩法,通過不斷的訓(xùn)練來提升自己的性能,這里采用的博弈策略是改良版本的迭代的蒙特卡洛CFR(MCCFR),通過自我博弈,左右手互博,自己制定了一個(gè)blueprint strategy(藍(lán)圖策略),最后對(duì)每個(gè)可能的狀況進(jìn)行概率分布統(tǒng)計(jì),通過搜索決策樹來決定下一步的行為,是叫牌還是出牌。

CFR是一種迭代的自我游戲算法,AI從完全隨機(jī)游戲開始,然后通過學(xué)習(xí)擊敗早期版本的自己逐漸改進(jìn)。

在算法的每次迭代中,MCCFR指定一個(gè)玩家作為其當(dāng)前策略在迭代中更新的標(biāo)記。在迭代開始時(shí),MCCFR根據(jù)當(dāng)前所有玩家的策略(最初是完全隨機(jī)的)模擬一手撲克牌。一旦模擬完成,人工智能就會(huì)回顧每一個(gè)玩家做出的決定,然后通過選擇其他可用的行動(dòng)來預(yù)測這個(gè)決定的好壞程度。

Pluribus玩家博弈樹

在解決不完全信息博弈中搜索的問題,Pluribus跟蹤每一手,根據(jù)其策略達(dá)到目前狀況的可能性。不管Pluribus實(shí)際上握著的牌,它首先會(huì)計(jì)算如何使用可能的每一手,謹(jǐn)慎地平衡所有的策略,以保持對(duì)于對(duì)手的不可預(yù)測性。

Pluribus 中的實(shí)時(shí)搜索

撲克以外的事

之前在1V1局中大勝人類的Libratus后來去五角大樓上班去了,國防部認(rèn)為這種策略型人工智能或許可以幫助他們進(jìn)行戰(zhàn)略的制定。

負(fù)責(zé) Pluribus 項(xiàng)目的 研究員Noam Brown說:“Pluribus的技術(shù)可以用于華爾街交易、拍賣、政治談判和網(wǎng)絡(luò)安全這些活動(dòng)中,這些活動(dòng)就像撲克一樣,涉及隱藏信息,因?yàn)槟悴⒉豢偸侵勒鎸?shí)世界的狀態(tài)?!?/p>

盡管像谷歌這樣的公司,有著“Don't be evil”的信條,但是,不可避免的是這樣能夠理解人類策略的人工智能,還是會(huì)引發(fā)大眾對(duì)于人工智能的某種恐懼,或者說,如果這樣的人工智能被運(yùn)用到軍事決策中,將會(huì)帶來多嚴(yán)重的后果?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    280021
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134635

原文標(biāo)題:AI賭神升級(jí)!無懼bluff,6人局德?lián)渫陝偈澜绻谲姡?xùn)練只用了8天

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練
    發(fā)表于 04-28 11:11

    Deepseek海思SD3403邊緣計(jì)算AI產(chǎn)品系統(tǒng)

    海思SD3403邊緣計(jì)算AI框架,提供了一套開放式AI訓(xùn)練產(chǎn)品工具包,解決客戶低成本AI系統(tǒng),針對(duì)差異化AI 應(yīng)用場景,自己采集樣本數(shù)據(jù),進(jìn)
    發(fā)表于 04-28 11:05

    首創(chuàng)開源架構(gòu),AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    ,聯(lián)發(fā)科帶來了全面升級(jí)的AI開發(fā)套件2.0,在模型庫規(guī)模、架構(gòu)開放程度、前沿端側(cè)AI技術(shù)支持和端側(cè)LoRA訓(xùn)練落地等方面均迎來全面躍遷,為開發(fā)者提供了更全面、更開放、更強(qiáng)大的端側(cè)
    發(fā)表于 04-13 19:52

    摩爾線程GPU原生FP8計(jì)算助力AI訓(xùn)練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓(xùn)練策略和高性能算子庫,這兩大框架在國產(chǎn)全功能GPU上實(shí)現(xiàn)了高效的混合
    的頭像 發(fā)表于 03-17 17:05 ?610次閱讀
    摩爾線程GPU原生FP<b class='flag-5'>8</b>計(jì)算助力<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    AI Cube進(jìn)行yolov8n模型訓(xùn)練,創(chuàng)建項(xiàng)目目標(biāo)檢測時(shí)顯示數(shù)據(jù)集目錄下存在除標(biāo)注和圖片外的其他目錄如何處理?

    AI Cube進(jìn)行yolov8n模型訓(xùn)練 創(chuàng)建項(xiàng)目目標(biāo)檢測時(shí)顯示數(shù)據(jù)集目錄下存在除標(biāo)注和圖片外的其他目錄怎么解決
    發(fā)表于 02-08 06:21

    璣 9400拿下AI性能榜冠軍,最強(qiáng)NPU引領(lǐng)手機(jī)AI應(yīng)用變革

    近兩年, AI手機(jī)端側(cè)AI應(yīng)用和AI體驗(yàn)開始進(jìn)入“超級(jí)加速”的時(shí)期,層出不窮的技術(shù)創(chuàng)新背后其實(shí)更離不開手機(jī)芯片的核心支持。在這股浪潮中,聯(lián)發(fā)科
    的頭像 發(fā)表于 12-30 20:09 ?721次閱讀
    <b class='flag-5'>天</b>璣 9400拿下<b class='flag-5'>AI</b>性能榜冠軍,最強(qiáng)NPU引領(lǐng)手機(jī)<b class='flag-5'>AI</b>應(yīng)用變革

    GPU是如何訓(xùn)練AI大模型的

    AI模型的訓(xùn)練過程中,大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓(xùn)練
    的頭像 發(fā)表于 12-19 17:54 ?749次閱讀

    為什么ai模型訓(xùn)練要用gpu

    GPU憑借其強(qiáng)大的并行處理能力和高效的內(nèi)存系統(tǒng),已成為AI模型訓(xùn)練不可或缺的重要工具。
    的頭像 發(fā)表于 10-24 09:39 ?977次閱讀

    AI大模型的訓(xùn)練數(shù)據(jù)來源分析

    AI大模型的訓(xùn)練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)AI大模型訓(xùn)練數(shù)據(jù)來源的分析: 一、公開數(shù)據(jù)集 公開
    的頭像 發(fā)表于 10-23 15:32 ?3682次閱讀

    如何訓(xùn)練自己的AI大模型

    訓(xùn)練自己的AI大模型是一個(gè)復(fù)雜且耗時(shí)的過程,涉及多個(gè)關(guān)鍵步驟。以下是一個(gè)詳細(xì)的訓(xùn)練流程: 一、明確需求和目標(biāo) 首先,需要明確自己的需求和目標(biāo)。不同的任務(wù)和應(yīng)用領(lǐng)域需要不同類型的AI模型
    的頭像 發(fā)表于 10-23 15:07 ?4991次閱讀

    ai模型訓(xùn)練需要什么配置

    AI模型訓(xùn)練是一個(gè)復(fù)雜且資源密集的過程,它依賴于高性能的硬件配置來確保訓(xùn)練的效率和效果。 一、處理器(CPU) CPU是計(jì)算機(jī)的核心部件,負(fù)責(zé)處理各種計(jì)算任務(wù)。在AI模型
    的頭像 發(fā)表于 10-17 18:10 ?3881次閱讀

    璣9400首發(fā)端側(cè)AI訓(xùn)練,在手機(jī)上就把AI變聰明

    隨著AI技術(shù)的快速發(fā)展,聯(lián)發(fā)科通過天璣9400芯片進(jìn)一步鞏固了其在手機(jī)端側(cè)AI市場的領(lǐng)導(dǎo)地位。作為璣系列最新的旗艦產(chǎn)品,璣9400不僅具備強(qiáng)大的
    的頭像 發(fā)表于 10-14 18:25 ?720次閱讀
    <b class='flag-5'>天</b>璣9400首發(fā)端側(cè)<b class='flag-5'>AI</b><b class='flag-5'>訓(xùn)練</b>,在手機(jī)上就把<b class='flag-5'>AI</b>變聰明

    首發(fā)端側(cè)LoRA訓(xùn)練!璣9400保護(hù)隱私更懂你

    聯(lián)發(fā)科發(fā)布的璣9400無疑是智能手機(jī)芯片領(lǐng)域的一次重大革新。這款全大核SoC首次將生成式AI引入手機(jī)端,特別是在AI視頻生成和AI訓(xùn)練方面
    的頭像 發(fā)表于 10-14 17:32 ?876次閱讀
    首發(fā)端側(cè)LoRA<b class='flag-5'>訓(xùn)練</b>!<b class='flag-5'>天</b>璣9400保護(hù)隱私更懂你

    蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

    蘋果公司最近在一篇技術(shù)論文中披露,其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個(gè)關(guān)鍵AI模型,是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI
    的頭像 發(fā)表于 07-30 17:03 ?920次閱讀