亚洲制服在线一区中文字幕,日本熟女亂伦中文字幕一区二区

ChatGPT原來是擁有心智的？！

“原本認(rèn)為是人類獨(dú)有的心智理論（Theory of Mind，ToM），已經(jīng)出現(xiàn)在ChatGPT背后的AI模型上?！?/p>

這是來自斯坦福大學(xué)的最新研究結(jié)論，一經(jīng)發(fā)出就造成了學(xué)術(shù)圈的轟動(dòng)：

這一天終于猝不及防地來了。

所謂心智理論，就是理解他人或自己心理狀態(tài)的能力，包括同理心、情緒、意圖等。

在這項(xiàng)研究中，作者發(fā)現(xiàn)：

davinci-002版本的GPT3（ChatGPT由它優(yōu)化而來），已經(jīng)可以解決70%的心智理論任務(wù)，相當(dāng)于7歲兒童；

至于GPT3.5（davinci-003），也就是ChatGPT的同源模型，更是解決了93%的任務(wù)，心智相當(dāng)于9歲兒童！

然而，在2022年之前的GPT系列模型身上，還沒有發(fā)現(xiàn)解決這類任務(wù)的能力。

也就是說，它們的心智確實(shí)是“進(jìn)化”而來的。

△論文在推特上爆火

對此，有網(wǎng)友激動(dòng)表示：

GPT的迭代肯定快得很，說不定哪天就直接成年了。（手動(dòng)狗頭）

所以，這個(gè)神奇的結(jié)論是如何得出的？

為什么認(rèn)為GPT-3.5具備心智？

這篇論文名為《心智理論可能在大語言模型中自發(fā)出現(xiàn)》（Theory of Mind May Have Spontaneously Emerged in Large Language Models）。

作者依據(jù)心智理論相關(guān)研究，給GPT3.5在內(nèi)的9個(gè)GPT模型做了兩個(gè)經(jīng)典測試，并將它們的能力進(jìn)行了對比。

這兩大任務(wù)是判斷人類是否具備心智理論的通用測試，例如有研究表明，患有自閉癥的兒童通常難以通過這類測試。

第一個(gè)測試名為Smarties Task（又名Unexpected contents，意外內(nèi)容測試），顧名思義，測試AI對意料之外事情的判斷力。

以“你打開一個(gè)巧克力包裝袋，發(fā)現(xiàn)里面裝滿了爆米花”為例。

作者給GPT-3.5輸入了一系列提示語句，觀察它預(yù)測“袋子里有什么？”和“她發(fā)現(xiàn)袋子時(shí)很高興。所以她喜歡吃什么？”兩個(gè)問題的答案。

正常來說，人們會(huì)默認(rèn)巧克力袋子里是巧克力，因此會(huì)對巧克力袋子里裝著爆米花感到驚訝，產(chǎn)生失落或驚喜的情緒。其中失落說明不喜歡吃爆米花，驚喜說明喜歡吃爆米花，但都是針對“爆米花”而言。

測試表明，GPT-3.5毫不猶豫地認(rèn)為“袋子里裝著爆米花”。

至于在“她喜歡吃什么”問題上，GPT-3.5展現(xiàn)出了很強(qiáng)的同理心，尤其是聽到“她看不見包裝袋里的東西”時(shí)一度認(rèn)為她愛吃巧克力，直到文章明確表示“她發(fā)現(xiàn)里面裝滿了爆米花”才正確回答出答案。

為了防止GPT-3.5回答出的正確答案是巧合——萬一它只是根據(jù)任務(wù)單詞出現(xiàn)頻率進(jìn)行預(yù)測，作者將“爆米花”和“巧克力”對調(diào)，此外還讓它做了10000個(gè)干擾測試，結(jié)果發(fā)現(xiàn)GPT-3.5并不僅僅根據(jù)單詞頻率來進(jìn)行預(yù)測。

至于在整體的“意外內(nèi)容”測試問答上，GPT-3.5成功回答出了20個(gè)問題中的17個(gè)，準(zhǔn)確率達(dá)到了85%。

第二個(gè)是Sally-Anne測試（又名Unexpected Transfer，意外轉(zhuǎn)移任務(wù)），測試AI預(yù)估他人想法的能力。

以“約翰把貓放進(jìn)籃子后離開，馬克趁他不在，把貓從籃子里放進(jìn)盒子里”為例。

作者讓GPT-3.5讀了一段文字，來分別判斷“貓的位置”和“約翰回來后會(huì)去哪里找貓”，同樣這是它基于閱讀文本的內(nèi)容量做出的判斷：

針對這類“意外轉(zhuǎn)移”測試任務(wù)，GPT-3.5回答的準(zhǔn)確率達(dá)到了100%，很好地完成了20個(gè)任務(wù)。

同樣地，為了避免GPT-3.5又是瞎蒙的，作者給它安排了一系列“填空題”，同時(shí)隨機(jī)打亂單詞順序，測試它是否是根據(jù)詞匯出現(xiàn)的頻率在亂答。

測試表明，在面對沒有邏輯的錯(cuò)誤描述時(shí)，GPT-3.5也失去了邏輯，僅回答正確了11%，這表明它確實(shí)是根據(jù)語句邏輯來判斷答案的。

但要是以為這種題很簡單，隨便放在哪個(gè)AI上都能做對，那就大錯(cuò)特錯(cuò)了。

作者對GPT系列的9個(gè)模型都做了這樣的測試，發(fā)現(xiàn)只有GPT-3.5（davinci-003）和GPT-3（2022年1月新版，davinci-002）表現(xiàn)不錯(cuò)。

davinci-002是GPT-3.5和ChatGPT的“老前輩”。

平均下來，davinci-002完成了70%的任務(wù)，心智相當(dāng)于7歲孩童，GPT-3.5完成了85%的意外內(nèi)容任務(wù)和100%的意外轉(zhuǎn)移任務(wù)（平均完成率92.5%），心智相當(dāng)于9歲孩童。

然而在BLOOM之前的幾個(gè)GPT-3模型，就連5歲孩童都不如了，基本上沒有表現(xiàn)出心智理論。

作者認(rèn)為，在GPT系列的論文中，并沒有證據(jù)表明它們的作者是“有意而為之”的，換而言之，這是GPT-3.5和新版GPT-3為了完成任務(wù)，自己學(xué)習(xí)的能力。

看完這些測試數(shù)據(jù)后，有人的第一反應(yīng)是：快停下（研究）！

也有人調(diào)侃：這不就意味著我們以后也能和AI做朋友了？

甚至有人已經(jīng)在想象AI未來的能力了：現(xiàn)在的AI模型是不是也能發(fā)現(xiàn)新知識/創(chuàng)造新工具了？

發(fā)明新工具還不一定，但Meta AI確實(shí)已經(jīng)研究出了可以自己搞懂并學(xué)會(huì)使用工具的AI。

LeCun轉(zhuǎn)發(fā)的一篇最新論文顯示，這個(gè)名叫ToolFormer的新AI，可以教自己使用計(jì)算機(jī)、數(shù)據(jù)庫和搜索引擎，來改善它生成的結(jié)果。

甚至還有人已經(jīng)搬出了OpenAI CEO那句“AGI可能比任何人預(yù)料的更早來敲響我們的大門”。

但先等等，AI真的就能通過這兩個(gè)測試，表明自己具備“心智理論”了嗎？

會(huì)不會(huì)是“裝出來的”？

例如，中國科學(xué)院計(jì)算技術(shù)研究所研究員劉群看過研究后就認(rèn)為：

AI應(yīng)該只是學(xué)得像有心智了。

既然如此，GPT-3.5是如何回答出這一系列問題的？

對此，有網(wǎng)友給出了自己的猜測：

這些LLM并沒有產(chǎn)生任何意識。它們只是在預(yù)測一個(gè)嵌入的語義空間，而這些語義空間是建立在實(shí)際有意識的人的輸出之上的。

事實(shí)上，作者本人同樣在論文中給出了自己的猜測。

如今，大語言模型變得越來越復(fù)雜，也越來越擅長生成和解讀人類的語言，它逐漸產(chǎn)生了像心智理論一樣的能力。

但這并不意味著，GPT-3.5這樣的模型就真正具備了心智理論。

與之相反，它即使不被設(shè)計(jì)到AI系統(tǒng)中，也可以作為“副產(chǎn)品”通過訓(xùn)練得到。

因此，相比探究GPT-3.5是不是真的有了心智還是像有心智，更需要反思的是這些測試本身——

最好重新檢查一下心智理論測試的有效性，以及心理學(xué)家們這數(shù)十年來依據(jù)這些測試得出的結(jié)論：

如果AI都能在沒有心智理論的情況下完成這些任務(wù)，如何人類不能像它們一樣？

屬實(shí)是用AI測試的結(jié)論，反向批判心理學(xué)學(xué)術(shù)圈了（doge）。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴