欧美巨乳爆乳在线,5566一二三区

機(jī)器正變得越來(lái)越具有協(xié)作性，其中既包括機(jī)器與人的協(xié)作也包括機(jī)器與機(jī)器之間的協(xié)作。不久之后，我們可能就會(huì)有能協(xié)商通行權(quán)的自動(dòng)駕駛汽車，以及協(xié)助護(hù)士進(jìn)行家庭護(hù)理的機(jī)器人。但首先，它們需要學(xué)會(huì)交流，而且不僅僅是通過(guò)言語(yǔ)交流。人類用他們的行動(dòng)說(shuō)了很多。踩剎車不僅會(huì)讓你減速，還預(yù)示著前方可能有麻煩。雙臂交叉在胸前既可以保護(hù)你，又傳達(dá)出沉默的信號(hào)。

為了教會(huì)人工智能（AI）進(jìn)行交流，研究人員轉(zhuǎn)向了紙牌游戲。雖然人工智能很久以前就在國(guó)際象棋、圍棋、某些形式的撲克和許多電子游戲中擊敗了人類，但橋牌和花火（Hanabi）等游戲提供了一些特殊的挑戰(zhàn)。玩家必須在沒(méi)有明確的信息共享方式的情況下進(jìn)行合作（例如打出對(duì)方需要你打出的牌）。研究這兩款游戲的研究人員最近開發(fā)了一些人工智能系統(tǒng)，這些系統(tǒng)發(fā)明了自己的隱式代碼來(lái)協(xié)調(diào)它們的動(dòng)作。

在橋牌比賽中，有四名選手，分成兩隊(duì)。在任何人出牌之前，玩家可以輪流叫牌。用選定的作為將牌的花色叫牌來(lái)表明你認(rèn)為你的團(tuán)隊(duì)可以贏某個(gè)墩數(shù)。多年來(lái)，橋牌玩家們已經(jīng)開發(fā)出了很多能同時(shí)讓隊(duì)友知道自己手里有什么排的叫牌方法。例如，一個(gè)人可能叫“兩個(gè)梅花”（即使他沒(méi)有梅花）來(lái)表示自己手里有很多花牌（J、Q、K）。通過(guò)這樣編碼過(guò)的叫牌，團(tuán)隊(duì)可以進(jìn)行基本的對(duì)話。

倫敦大學(xué)學(xué)院（University College London）的研究人員最近在預(yù)印本文庫(kù)arXiv上發(fā)表了一篇標(biāo)題為“Learning to Communicate Implicitly By Ac tions”的論文。在他們的名為“策略-信念-迭代”（Policy - Belief - Iteration，簡(jiǎn)稱P-BIT）的系統(tǒng)中，每個(gè)AI玩家都有兩個(gè)神經(jīng)網(wǎng)絡(luò)。一個(gè)網(wǎng)絡(luò)學(xué)習(xí)根據(jù)叫牌來(lái)推斷隊(duì)友手里有什么牌。另一個(gè)學(xué)習(xí)根據(jù)對(duì)隊(duì)友手里有的牌的推斷和自己手里的牌來(lái)做出恰當(dāng)?shù)慕信?。在?xùn)練過(guò)程中，AI玩家會(huì)因?yàn)樽约旱慕信铺岣吡岁?duì)友所做推斷（推斷自己手里有什么牌）的準(zhǔn)確性而得到獎(jiǎng)勵(lì)。

在經(jīng)過(guò)150萬(wàn)手的練習(xí)之后，這對(duì)AI搭檔已經(jīng)發(fā)展出了它們自己的約定，比如用叫一種花色的三張牌的方式來(lái)表明這種花色的六張牌可能是一個(gè)理想的定約。這對(duì)AI玩家擊敗了沒(méi)有進(jìn)行交流或?qū)λ鼈冴?duì)友的信念進(jìn)行建模的基線AI玩家。該論文的作者之一、倫敦大學(xué)學(xué)院的計(jì)算機(jī)科學(xué)家Jun Wang表示，這些AI玩家還無(wú)法與人類玩家相比，但他發(fā)現(xiàn)初步結(jié)果“是非常鼓舞人心的”。

一款名為花火（Hanabi）的新型紙牌游戲也具有類似的交流挑戰(zhàn)。在這款需要合作的類單人紙牌游戲中，兩到五名玩家每人各持有四到五張牌，每張牌都具有一種顏色并帶有一個(gè)數(shù)字，玩家需要輪流將它們按正確的順序放到彩色的紙牌堆上。但他們看不到自己的牌，只能看到隊(duì)友的牌。

在每個(gè)回合中，他們可以出一張牌、丟棄一張牌，或者給另一位玩家一個(gè)提示。他們不能告訴對(duì)方可以出哪張牌，而是只能說(shuō)對(duì)方手中的哪些牌是某種顏色的或是帶有某個(gè)數(shù)字的。在某些情況下，指出隊(duì)友手中的某張牌的顏色，可能是向隊(duì)友示意他接下來(lái)應(yīng)該打出這一張牌。信息不僅可以來(lái)自顯性線索本身（牌的顏色），還可以來(lái)自為什么選擇該線索而不是其他線索的隱性內(nèi)容。

最近，DeepMind Technologies和牛津大學(xué)的一個(gè)團(tuán)隊(duì)在arXiv上發(fā)表了一篇標(biāo)題為“Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning”的論文。論文中介紹了一個(gè)針對(duì)雙人版本花火游戲的機(jī)器學(xué)習(xí)系統(tǒng)。他們的“貝葉斯動(dòng)作解碼器”（Bayesian Action Decoder，簡(jiǎn)稱BAD）也使用神經(jīng)網(wǎng)絡(luò)，讓每個(gè)人工智能玩家嘗試推斷其隊(duì)友的信念。為了避免無(wú)限遞歸地思考你的隊(duì)友在思考你在思考什么，這個(gè)系統(tǒng)兩個(gè)玩家外部創(chuàng)建了一套“公共信念”。

這些公共信念代表了有關(guān)游戲狀態(tài)和之前動(dòng)作的所有公開可用信息，以及在沒(méi)有實(shí)際查看其中任何一手的情況下可能說(shuō)的關(guān)于所有手的話。然后，“公共代理人”使用神經(jīng)網(wǎng)絡(luò)將這些信念轉(zhuǎn)換為關(guān)于每個(gè)玩家應(yīng)該做什么以及他們的隊(duì)友手中可能拿著怎樣的牌的指示。然后，每個(gè)玩家在公共代理的指導(dǎo)下，根據(jù)自己的觀察，采取行動(dòng)。

盡管這些人工智能玩家并沒(méi)有因?yàn)榻涣鞫@得特別的獎(jiǎng)勵(lì)，但打信號(hào)卻產(chǎn)生了另外的作用。例如，指出紅牌或黃牌意味著AI隊(duì)友應(yīng)該打出最近抽到的牌。研究人員計(jì)算出，通過(guò)暗示分享的信息中有40%是隱性的。這種編碼通信幫助他們的系統(tǒng)近乎完美地運(yùn)行，平均得分為24分（滿分25分），比之前最好的機(jī)器人高出約1分。（對(duì)于人類來(lái)說(shuō)，即使有使用肢體語(yǔ)言的不公平優(yōu)勢(shì)，得分超過(guò)20分就是不錯(cuò)的。）

這兩個(gè)系統(tǒng)，即用于橋梁的P-BIT和用于Hanabi的BAD，都依賴于給予人工智能的一些東西，比如人的“心理理論”，或者對(duì)他人的信念和意圖的認(rèn)知。這種推理在人際交往中普遍存在。如果你問(wèn)你的朋友他的婚姻狀況，而他把話題轉(zhuǎn)到紐約大都會(huì)隊(duì)，那么他的話就不僅說(shuō)明了關(guān)于大都會(huì)隊(duì)的一些情況，也說(shuō)明了他的婚姻狀況。

為了讓AI能夠高效、優(yōu)雅地處理與人之間或彼此之間的互動(dòng)，它們需要理解隱性信號(hào)，而紙牌游戲是實(shí)現(xiàn)目標(biāo)的途徑之一。一家名為NukkAI的創(chuàng)業(yè)公司專注于為橋牌打造更好的人工智能，并且正籌集了數(shù)百萬(wàn)美元，期望最終將其技術(shù)應(yīng)用于現(xiàn)實(shí)世界的問(wèn)題。在最近的一篇標(biāo)題為“The Hanabi Challenge: A New Frontier for AI Research”論文中，DeepMind稱花火為“人工智能研究的一個(gè)新前沿”，并提供了一個(gè)開源測(cè)試平臺(tái)。

盡管DeepMind的BAD系統(tǒng)通過(guò)反復(fù)與同一隊(duì)友玩游戲來(lái)制定出約定，但他們?cè)谏厦婺瞧撐闹兄赋?，更高?jí)的任務(wù)將是對(duì)不熟悉的玩家的行為進(jìn)行動(dòng)態(tài)推理。他們?cè)谶@個(gè)場(chǎng)景下測(cè)試了一些系統(tǒng)，而沒(méi)有一個(gè)系統(tǒng)的平均得分超過(guò)4分。

研究機(jī)器人和通信的康奈爾大學(xué)計(jì)算機(jī)科學(xué)家Julia Proft也強(qiáng)調(diào)了即時(shí)推理的重要性。她最近發(fā)現(xiàn)，當(dāng)AI花火玩家使用隱性信號(hào)時(shí)，它們更有可能被判斷為是人類玩家。這一發(fā)現(xiàn)發(fā)表在標(biāo)題為“Implicit Communication of Actionable Information in Human-AI teams”的論文中。在談到關(guān)于習(xí)得約定的論文時(shí)，她說(shuō)：“他們做的事情真酷?！钡旨由弦痪湔f(shuō)，“有趣的問(wèn)題”是來(lái)自上下文的自發(fā)推理。

不過(guò)，牛津大學(xué)的計(jì)算機(jī)科學(xué)家、DeepMind那兩篇論文的合著者Jakob Foerster說(shuō)：“我并不認(rèn)為我們有可信的方法來(lái)開始考慮自發(fā)推理需要什么。說(shuō)實(shí)話，我們離去考慮那個(gè)問(wèn)題還相當(dāng)遠(yuǎn)?！?/p>

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4814

瀏覽量
103609
AI

AI

+關(guān)注

關(guān)注
88

文章
35147

瀏覽量
279830
人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
49019

瀏覽量
249474
機(jī)器

機(jī)器

+關(guān)注

關(guān)注
0

文章
790

瀏覽量
41284

原文標(biāo)題：人工智能玩家發(fā)明自己的“語(yǔ)言”，合作“交流”以贏得紙牌游戲

文章出處：【微信號(hào)：IEEE_China，微信公眾號(hào)：IEEE電氣電子工程師】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

人工智能玩家發(fā)明自己的“語(yǔ)言”，合作“交流”以贏得紙牌游戲

評(píng)論