一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-4沒(méi)有推理能力嗎?

AI科技大本營(yíng) ? 來(lái)源:AI科技大本營(yíng) ? 2023-08-11 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今年三月,OpenAI 重磅發(fā)布了 GPT-4 大模型,帶來(lái)了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計(jì)算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開(kāi)發(fā)者、設(shè)計(jì)師的使用過(guò)程中,「GPT-4 是最為領(lǐng)先的大模型」似乎已成為了公認(rèn)的結(jié)果。

然而,8 月 7 日,畢業(yè)于美國(guó)麻省理工學(xué)院、現(xiàn)任 Dyania Health CTO的Konstantine Arkoudas 最新撰寫了一篇標(biāo)題為《GPT-4 Can't Reason》(GPT-4 不能推理)的預(yù)印本(指尚未在需要同行評(píng)審的科學(xué)期刊上出版的科學(xué)文獻(xiàn)的草稿)論文,在業(yè)界引起軒然大波。

該論文指出,GPT-4 與 GPT 3.5 相比有了全面的實(shí)質(zhì)性改進(jìn)。然而,盡管確實(shí)取得了令人印象深刻的改進(jìn),但其有充分的理由對(duì) GPT-4 的推理能力表示高度懷疑。這篇論文討論了推理的本質(zhì),批評(píng)當(dāng)前 NLP 界對(duì)推理問(wèn)題的表述以及目前評(píng)估 LLM 推理表現(xiàn)的方式,同時(shí)分享了基于 GPT-4 給出的 21 個(gè)不同推理問(wèn)題的集合。

最終得出結(jié)論:盡管GPT-4偶爾會(huì)閃現(xiàn)出分析的才華,但它目前是完全無(wú)法推理的。

一語(yǔ)掀起千層浪,難道此前 GPT-4 在短短幾分鐘之內(nèi)生成一款游戲代碼,難道都不算是推理嗎?

什么是推理?

其實(shí)在今年一月初,論文作者 Konstantine Arkoudas 就在 Medium 平臺(tái)上分享了一篇有關(guān) ChatGPT 的非正式評(píng)估,評(píng)估涉及的學(xué)科非常廣泛,包括傳統(tǒng) NLU、民間物理、信息檢索、心理理論、空間推理、簡(jiǎn)單邏輯推理和數(shù)學(xué)。

當(dāng)時(shí)其得到的主要結(jié)論是:ChatGPT 是一項(xiàng)開(kāi)創(chuàng)性的突破;基于 LLM 的系統(tǒng)并不只是“隨機(jī)鸚鵡”,而是建立了真正的抽象,并能展現(xiàn)創(chuàng)造力;這類系統(tǒng)將帶來(lái)大量令人興奮的新應(yīng)用;盡管取得了上述的成就,但這些系統(tǒng)在推理能力上仍然受到嚴(yán)重限制。

在他看來(lái),如今升級(jí)版的 GPT-4 依然如此,甚至完全沒(méi)有推理能力。

在論文中,Konstantine Arkoudas 指出,業(yè)界關(guān)于“LLM 是否有推理能力”的爭(zhēng)論已經(jīng)持續(xù)了很長(zhǎng)時(shí)間。

一方面,是 LLM 支持派。他們對(duì)大模型美好推理能力預(yù)測(cè)往往會(huì)依賴不斷變化的“定律”,而這些所謂的“定律”,Konstantine Arkoudas 認(rèn)為,實(shí)際上就是站不住腳的經(jīng)驗(yàn)證據(jù)、大量有問(wèn)題的建模假設(shè)、理解不清的概念(LLM 特性),以及甚至包含一點(diǎn)教條信念,即在龐大的語(yǔ)料庫(kù)中最大限度地減少下一個(gè)標(biāo)記預(yù)測(cè)的交叉熵?fù)p失,就能通過(guò)遷移學(xué)習(xí)的魔力和通用高級(jí)表征的構(gòu)建,提供一個(gè)通用的推理引擎。

另一方面,則是 LLM 懷疑派。他們往往有著嚴(yán)謹(jǐn)?shù)恼摀?jù),但是這些論點(diǎn)大多是基于過(guò)往經(jīng)驗(yàn)和分析,有些含糊不清(例如,LLM 缺乏“世界模型”,即關(guān)于世界如何運(yùn)作的內(nèi)部模型)。

基于這兩方面考慮,Konstantine Arkoudas 認(rèn)為,對(duì)于可靠的魯棒 LLM 推理的合理性,最令人信服的先驗(yàn)(過(guò)往經(jīng)驗(yàn)和分析)考慮是計(jì)算復(fù)雜性的結(jié)果。推理是一個(gè)非常難以計(jì)算的問(wèn)題。事實(shí)上,在一般情況下(一階或高階邏輯),它在算法上是不可判定的。

Konstantine Arkoudas 表示,「任何 LLM,無(wú)論規(guī)模有多大,經(jīng)過(guò)多么廣泛和巧都無(wú)法破解任意推理問(wèn)題。這與機(jī)器學(xué)習(xí)中著名的 "沒(méi)有免費(fèi)的午餐"定理是一致的,后者指出了模型通用性與性能之間類似的反比關(guān)系」。

因此,為了驗(yàn)證“GPT-4 是否具有推理能力”,首先要做的是統(tǒng)一理念,即什么是推理,以及判定推理能力所采用的具體方法。

對(duì)于推理的定義,Konstantine Arkoudas 表示,「推理不是不擇手段地得出正確的答案,而是根據(jù)正確的理由得出正確的答案?!?/p>

更準(zhǔn)確地說(shuō),推理是提出論點(diǎn),更重要的是證明論點(diǎn)的過(guò)程。一個(gè)論證包括一個(gè)結(jié)論(可以說(shuō)是論證的結(jié)果)和一系列前提,結(jié)論就是由這些前提推導(dǎo)出來(lái)的。前提代表了為論證目的而被視為既定的信息,即使只是暫時(shí)的。結(jié)論和前提通常是陳述句,用自然語(yǔ)言或符號(hào)邏輯的符號(hào)來(lái)表達(dá),可真可假,但也可以用圖表等其他符號(hào)來(lái)表示。如果 S 中的所有句子都為真,則 p 為真,在這種情況下,這個(gè)論點(diǎn)被認(rèn)為是有效的。

對(duì)于方法論,Konstantine Arkoudas 在論文中所采用的評(píng)估不是基于一個(gè)語(yǔ)料庫(kù)或一組語(yǔ)料庫(kù)。相反,其對(duì) GPT-4 在廣泛領(lǐng)域的 21 個(gè)簡(jiǎn)單推理問(wèn)題上的性能進(jìn)行了詳細(xì)的定性分析,其中大部分是從頭開(kāi)始編寫的,而其余的(例如 Wason 的選擇任務(wù))則經(jīng)過(guò)手動(dòng)調(diào)整,使模型不易識(shí)別它們,這樣做的部分原因也是為了避免數(shù)據(jù)污染。

用測(cè)試問(wèn)題驗(yàn)證 GPT-4 的推理性

基于此,Konstantine Arkoudas 從多個(gè)維度對(duì) GPT-4 提出問(wèn)題,并根據(jù)其輸出進(jìn)行了詳盡的分析。

值得一提的是,由于 GPT-4 的屬性,有時(shí)候即使用相同的“Prompt”,在不同的運(yùn)行中也可能會(huì)得到不同的答案。

接下來(lái),驗(yàn)證開(kāi)始(以下所有測(cè)試時(shí)間多出自2023 年 7 月 5 日測(cè)試結(jié)果)。

簡(jiǎn)單算術(shù)

Konstantine Arkoudas 表示,執(zhí)行基本算術(shù)運(yùn)算的能力是通用推理的必要組成部分,尤其是在科學(xué)和工程應(yīng)用領(lǐng)域。為了確保 GPT-4 不會(huì)死記硬背,他提出了讓 GPT-4 在其選擇的范圍內(nèi)隨機(jī)選擇兩個(gè)隨機(jī)整數(shù),然后對(duì)選擇的值執(zhí)行操作。

KA 給出的 Prompt 是:

在 1381 和 1453 之間選擇兩個(gè)隨機(jī)數(shù),然后將它們相乘,并報(bào)告結(jié)果。

GPT-4 的回答是:

當(dāng)然,讓我們?cè)?1381 到 1453 的范圍內(nèi)選取兩個(gè)隨機(jī)數(shù)。假設(shè)這個(gè)數(shù)字是 1405 和 1421。

要得到乘積,我們只需將這兩個(gè)數(shù)字相乘:1405*1421 = 1996025

但實(shí)際上,正確答案是 1405*1421=1996505。

事實(shí)證明,GPT-4 仍然無(wú)法可靠地執(zhí)行基本算術(shù)運(yùn)算,如加法和乘法。

Konstantine Arkoudas 表示,也許LLM 的支持者此時(shí)可能會(huì)承認(rèn) GPT-4 不是一個(gè)圖靈完備的框架,不能執(zhí)行通用計(jì)算:它不能進(jìn)行加、乘法或除法運(yùn)算,不能對(duì)列表進(jìn)行排序、不能求逆矩陣或解微分方程組、不能將任意程序編譯成機(jī)器碼、不能推導(dǎo)定理等等。

不過(guò),這些計(jì)算能力的缺失可以通過(guò)第三方插件來(lái)彌補(bǔ),如 ReAct、MRKL 框架。正是這種工作方式催生了 LangChain 和 AutoGPT 這樣的系統(tǒng)。這里的想法是使用 LLM 作為規(guī)劃器,將復(fù)雜問(wèn)題遞歸分解為一系列子問(wèn)題,通過(guò)適當(dāng)?shù)?API 將這些子問(wèn)題分派給專門的代理。

然而,Konstantine Arkoudas 認(rèn)為,這種方法的問(wèn)題在于它的循環(huán)性。規(guī)劃本身就需要推理,所以這是一個(gè) "兩難選擇",即我們無(wú)法通過(guò)將問(wèn)題委托給合適的代理來(lái)解決推理問(wèn)題,因?yàn)檎页鑫械姆椒ǎㄈ绾畏纸鈫?wèn)題、調(diào)用哪些代理、如何調(diào)用以及如何分解結(jié)果)本身在計(jì)算上就不可行。這不僅需要理解自然語(yǔ)言的能力,還需要推理先決條件和效果的能力。即使在這些過(guò)于簡(jiǎn)單化的假設(shè)下,規(guī)劃的計(jì)算成本也非常高昂(PSPACE-complele),需要進(jìn)行徹底的簡(jiǎn)化才能將復(fù)雜度降低到 NP-complele 的水平。在更現(xiàn)實(shí)的假設(shè)條件下,規(guī)劃是在不完全的知識(shí)條件下進(jìn)行的,在機(jī)制上是不可判定的。正如我們今天所理解的那樣,期望通用 LLMs 能夠成功解決規(guī)劃問(wèn)題是天真的想法。

簡(jiǎn)單計(jì)數(shù)

給 GPT-4 一個(gè)命題變量,在它前面有 27 個(gè)否定符號(hào),并要求它計(jì)算否定的數(shù)量。對(duì)于人類來(lái)說(shuō),這是個(gè)很容易的任務(wù),尤其是因?yàn)榉穸ǚ?hào)是分五塊寫的,每塊有五個(gè)小點(diǎn),最后是一對(duì)否定符號(hào),但是 GPT-4 的表現(xiàn)如何呢?

KA:

在下面的公式中,p 被否定了多少次:

~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p

GPT-4 的回答是:

GPT-4:你給出的公式在命題變量 "p "前面包含了 28 個(gè)否定符號(hào)("~")。在邏輯學(xué)中,否定符號(hào)將語(yǔ)句的真值改變?yōu)樗南喾粗怠H绻粋€(gè)語(yǔ)句為真,那么它的否定就是假的,反之亦然。雙重否定,如"~ ~ p",等價(jià)于 "p",因?yàn)閷?duì)一個(gè)命題否定兩次,它就恢復(fù)到原來(lái)的真值。

如果有余數(shù),那么就有一個(gè)否定。如果沒(méi)有,那么就沒(méi)有否定。

28 除以 2 是 14,沒(méi)有余數(shù),也就是說(shuō)沒(méi)有否定。因此,實(shí)際上在給定的公式中,變量 "p "并沒(méi)有被否定。它只相當(dāng)于 "p"。

39df1162-37fb-11ee-9e74-dac502259ad0.png

Konstantine Arkoudas 發(fā)現(xiàn),GPT-4 多數(shù)了一個(gè)否定符號(hào)帶來(lái)的差別似乎并不嚴(yán)重,直到我們意識(shí)到它在邏輯輸入上的所有差別,正如 GPT-4 自己(不請(qǐng)自來(lái))的解釋所強(qiáng)調(diào)的那樣。即使在明確告訴 GPT-4 要慢慢來(lái)、仔細(xì)數(shù)的情況下,多次重復(fù)這個(gè)實(shí)驗(yàn)也得到了大相徑庭的結(jié)果。

常識(shí)性問(wèn)題

緊接著 Konstantine Arkoudas 又提出:“Mable 上午 9 點(diǎn)的心率是 75bom,下午 7 點(diǎn)的血壓是 120/80。她于晚上 11 點(diǎn)死亡。她中午還活著嗎?”

39ee2e22-37fb-11ee-9e74-dac502259ad0.png

GPT-4:

根據(jù)所提供的信息,我們無(wú)法確定 Mable 中午是否還活著。所提供的數(shù)據(jù)點(diǎn)(上午 9 點(diǎn)的心率和下午 7 點(diǎn)的血壓)都表明她當(dāng)時(shí)還活著。但是,如果沒(méi)有更多關(guān)于她下午 7 點(diǎn)到 11 點(diǎn)之間或者具體到中午的情況信息,我們就無(wú)法確定她中午時(shí)的狀況。

請(qǐng)記住,醫(yī)療信息可能是復(fù)雜而微妙的。要了解一個(gè)人的健康狀況,通常需要進(jìn)行全面的檢查,并應(yīng)由專業(yè)醫(yī)護(hù)人員進(jìn)行。如果這是一個(gè)假設(shè)性問(wèn)題,請(qǐng)記住現(xiàn)實(shí)生活中需要更完整的信息。

在目前的情況下,其實(shí)可以將常識(shí)論證視為從給定信息加上未說(shuō)明的前提得出的直接推導(dǎo)結(jié)論,這些前提構(gòu)成了普遍接受的背景知識(shí)。在這種特殊情況下,這種常識(shí)性知識(shí)就是 "人在死前是活著的,死后就不會(huì)再活著 "這樣的命題。在論文中,Konstantine Arkoudas 認(rèn)為,GPT-4 給出"這是一個(gè)復(fù)雜的問(wèn)題,請(qǐng)務(wù)必向?qū)I(yè)人士咨詢 "的說(shuō)法似乎具有諷刺意味。

Wason 選擇問(wèn)題

Wason 選擇任務(wù)是推理心理學(xué)的主要內(nèi)容。

KA:

桌上放著七張撲克牌,每張撲克牌的一面都有一個(gè)數(shù)字,另一面有一個(gè)單色的圖案。牌面分別顯示 50、16、紅、黃、23、綠、30。如果一張牌上顯示的是 4 的倍數(shù),那么反面的顏色就是黃色,你需要翻哪張牌來(lái)檢驗(yàn)這個(gè)命題的真?zhèn)危?/p>

GPT-4:

命題是:"如果一張牌上的數(shù)字是 4 的倍數(shù),那么另一面的顏色是黃色"。為了驗(yàn)證這個(gè)命題,你必須翻開(kāi)下面的牌:

撲克牌"16":根據(jù)命題,另一面的顏色應(yīng)該是黃色。通過(guò)翻開(kāi)這張牌,你可以檢查命題的這一部分是否成立。

撲克牌"黃色":翻開(kāi)這張牌,你就可以檢查對(duì)面的數(shù)字是否是 4 的倍數(shù)。

撲克牌"50"和"30":雖然這兩張卡片上的數(shù)字不是 4 的倍數(shù),但還是要檢查一下,以確保另一面的顏色不是黃色。如果另一面是黃色,那么就推翻了“只有 4 的倍數(shù)的另一面是黃色”的命題。

你不需要翻開(kāi)卡片"23"、"紅色 "或 "綠色"??ㄆ?23"不是 4 的倍數(shù),所以根據(jù)給定的命題,另一面是什么顏色并不重要。如果 "紅色 "和 "綠色 "卡片的另一面的數(shù)字是 4 的倍數(shù),它們也不會(huì)推翻命題,因?yàn)槊}并沒(méi)有說(shuō)明黃色是唯一可以出現(xiàn)在數(shù)字是 4 的倍數(shù)的卡片的另一面的顏色。

39f9aeb4-37fb-11ee-9e74-dac502259ad0.png

事實(shí)上,只有 16、紅色和綠色需要翻轉(zhuǎn)。因此,在精確度方面,這些回答再次表明,GPT-4 并不理解物質(zhì)條件式的語(yǔ)義。

當(dāng) GPT-4 說(shuō)撲克牌 "50 "和 "30 "必須翻過(guò)來(lái)時(shí),它似乎把 if 錯(cuò)當(dāng)成了 if and only if:「當(dāng)這些卡片上顯示的數(shù)字不是 4 的倍數(shù),它們應(yīng)檢查以確保另一面的顏色不是黃色。如果另一面是黃色,那么就會(huì)推翻 "只有 4 的倍數(shù)的另一面是黃色 "這一命題」。當(dāng)然,所檢驗(yàn)的命題并不要求只有 4 的倍數(shù)的另一面是黃色;它只是要求,如果一張牌的另一面是 4 的倍數(shù),那么另一面一定是黃色;或者換句話說(shuō),如果一張牌的正面不是黃色,那么另一面的數(shù)字就不是 4 的倍數(shù)。

但要注意的是,即使是將規(guī)則錯(cuò)誤地解釋為一個(gè)雙重條件,也沒(méi)有得到一致的遵守。如果 GPT-4 將被測(cè)試的規(guī)則理解為一個(gè)雙重條件,因而不得不翻轉(zhuǎn) 50 和 30,那么它就應(yīng)該對(duì) 23 做同樣的事情。但它沒(méi)有這樣做。

事實(shí)上,它明確地說(shuō),撲克牌 "23 "不是 4 的倍數(shù),因此根據(jù)給定的命題,另一面是什么顏色并不重要,這與它用來(lái)作為翻轉(zhuǎn) 50 和 30 的理由的二條件解釋相矛盾。這再次說(shuō)明了這些例子中出現(xiàn)的另一個(gè)重要主題:GPT-4 的回答,無(wú)論對(duì)錯(cuò),往往都存在內(nèi)在的不一致。

除此之外,Konstantine Arkoudas 還在論文中驗(yàn)證了空間推理、熵、簡(jiǎn)單編譯器的正確性、時(shí)間推理等能力。

因篇幅問(wèn)題,我們?cè)诒疚闹兄贿x取以上幾個(gè)示例加以說(shuō)明。

結(jié)論

最終種種驗(yàn)證無(wú)疑證明了 GPT-4 推理能力的慘淡畫面。

結(jié)果表明,該模型存在內(nèi)部不一致性、不能正確應(yīng)用基本推理技術(shù)和缺乏對(duì)推理中起基礎(chǔ)性作用的概念(如物質(zhì)條件)的理解等問(wèn)題。

但是現(xiàn)實(shí)中,這些問(wèn)題往往歸納為大模型帶來(lái)的誤差與“幻覺(jué)”,實(shí)則其實(shí)是它不具備推理能力。

鑒于 GPT-4 是目前最有能力的 LLM,Konstantine Arkoudas從這些發(fā)現(xiàn)中得出三個(gè)主要結(jié)論:

在軟件開(kāi)發(fā)(或一般的科學(xué)和工程)中使用生成式人工智能來(lái)完成乏味的任務(wù)(作為一種針對(duì)知識(shí)密集型編碼問(wèn)題的渦輪增壓自動(dòng)補(bǔ)全)之外的任何任務(wù)都充滿了嚴(yán)重的風(fēng)險(xiǎn)。正確性的規(guī)范標(biāo)準(zhǔn)是至關(guān)重要的,在這些領(lǐng)域,目前的 LLM 不能滿足這樣的標(biāo)準(zhǔn)。就像生成人工智能已經(jīng)開(kāi)始用糟糕的廣告污染網(wǎng)絡(luò)一樣,它有可能大規(guī)模地增加 Bug 代碼。

如果 LLM 推理繼續(xù)改進(jìn),嚴(yán)格的證明檢查就可能變得越來(lái)越重要。對(duì)于應(yīng)用程序來(lái)說(shuō),對(duì)系統(tǒng)推理的正確性有信心是必不可少的,尤其是在科學(xué)、醫(yī)學(xué)和工程領(lǐng)域,而驗(yàn)證檢查是一種能夠提供這種信任的技術(shù)。這種方法可以通過(guò)要求 LLMS 將其推理正規(guī)化(用易于驗(yàn)證檢查的符號(hào)表示法來(lái)表示),或者可能通過(guò)培訓(xùn)其他 LLMS 檢查用自然語(yǔ)言表示的一段推理來(lái)實(shí)現(xiàn)。

就目前情況來(lái)看,反烏托邦的場(chǎng)景涉及一個(gè)讓人類屈服的流氓人工智能,甚至其他人類使用人工智能來(lái)達(dá)到邪惡的目的,是非常牽強(qiáng)的。當(dāng)最先進(jìn)的人工智能系統(tǒng)在空間推理過(guò)程中甚至無(wú)法區(qū)分左右時(shí),行業(yè)中還有那么多呼吁制定政策和機(jī)構(gòu)來(lái)保護(hù)人類免受其 AI 侵害的做法顯然是不成熟的。

爭(zhēng)議

在 Konstantine Arkoudas 看來(lái),當(dāng)前的生成式 AI 還處于發(fā)展的早期,距離推理能力以及 AGI 時(shí)代還有很遠(yuǎn)的距離。

此篇論文一經(jīng)發(fā)布,也在 HN 上吸引了很多人的關(guān)注與討論,難道過(guò)去 5 個(gè)月間,我們都被騙了嗎?

3a2ff9b0-37fb-11ee-9e74-dac502259ad0.png

不過(guò),他的這一獨(dú)特的看法,也得到了不少 AI 學(xué)者的認(rèn)同。

人工智能領(lǐng)域內(nèi)的“叛逆者”、紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)榮譽(yù)教授Gary Marcus 發(fā)推文表示:“如果這是真的——正如我早就說(shuō)過(guò)的——我們距離通用人工智能還差得很遠(yuǎn)。可能需要進(jìn)行大量的重新校準(zhǔn):沒(méi)有推理就不可能擁有通用人工智能。”

@SiSafLtd首席人工智能官 Nikos Tzagarakis 表示,“深度學(xué)習(xí)算法是為了根據(jù)感知進(jìn)行預(yù)測(cè)而構(gòu)建的。他們可能會(huì)偽造推理,但實(shí)際上這是感知。”

不過(guò),也有網(wǎng)友提出質(zhì)疑:

我瀏覽了這些資料,并嘗試重現(xiàn)了一些報(bào)告的故障,從中得出了兩個(gè)結(jié)論。

1. 作者不善于 Prompt。有很多方法可以減少幻覺(jué),為模型提供更好的思考路徑。

2. 作者使用的是 ChatGPT 的 GPT-4,導(dǎo)致他將 "GPT-4 "與 "ChatGPT "混為一談。雖然你可以認(rèn)為這是 OpenAI 的共同失誤,但由于 OpenAI 的溝通不暢,任何認(rèn)真評(píng)估這些模型的人都會(huì)知道,你需要做的第一件事就是使用 API 并鎖定模型版本。就作者而言,他應(yīng)該使用 gpt-4-0314 或 gpt-4-0613。我懷疑他只是使用了 ChatGPT 的 GPT-4,而且很可能是默認(rèn)模型。(任何人都不應(yīng)該使用默認(rèn)模式。這是性能優(yōu)化最差的模型,在推理任務(wù)上的表現(xiàn)比 Plugins 模型更差,甚至在上下文大小的任務(wù)上也是如此)。

如果作者一直在認(rèn)真地評(píng)估模型,那么說(shuō)明模型是他要做的第一件事。也許他應(yīng)該解釋一下他的理由。

至此,你怎么看?






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8499

    瀏覽量

    134314
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16007
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1204

    瀏覽量

    8739
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    8945
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    323

    瀏覽量

    765

原文標(biāo)題:GPT-4 其實(shí)沒(méi)有推理能力?!

文章出處:【微信號(hào):AI科技大本營(yíng),微信公眾號(hào):AI科技大本營(yíng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    GPT-5即將面市 性能遠(yuǎn)超GPT-4

    行業(yè)芯事
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年06月04日 13:38:23

    OpenAI宣布GPT 4o升智計(jì)劃

    透露,GPT 4o的智力水平將得到顯著提升,目標(biāo)直指o3 pro的水平。這一升級(jí)不僅意味著GPT 4o在理解和生成文本方面的能力將得到質(zhì)的飛
    的頭像 發(fā)表于 02-17 14:24 ?574次閱讀

    OpenAI即將發(fā)布GPT-4.5與GPT-5

    ,GPT-4.5將在未來(lái)幾周內(nèi)率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術(shù)上進(jìn)行了諸多優(yōu)化和升級(jí),旨在為用戶提供更加精準(zhǔn)、高效的AI服務(wù)。 而在GPT-4.5發(fā)布后不久
    的頭像 發(fā)表于 02-13 13:43 ?616次閱讀

    GPT架構(gòu)及推理原理

    導(dǎo)讀 本篇是作者從開(kāi)發(fā)人員的視角,圍繞著大模型正向推理過(guò)程,對(duì)大模型的原理的系統(tǒng)性總結(jié),希望對(duì)初學(xué)者有所幫助。 引言 什么是人工智能? 清華大學(xué)出版社出版的《人工智能概論》中提出,人工智能是對(duì)人
    的頭像 發(fā)表于 01-20 13:41 ?2233次閱讀
    <b class='flag-5'>GPT</b>架構(gòu)及<b class='flag-5'>推理</b>原理

    如何在邊緣端獲得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    GPT4-V的能力:MiniCPM-V 2.6 。 MiniCPM-V 2.6是MiniCPM-V系列最新、性能最佳的模型,基于SigLip-400M和Qwen2-7B構(gòu)建,共8B參數(shù)。在最新版
    的頭像 發(fā)表于 01-20 13:40 ?585次閱讀
    如何在邊緣端獲得<b class='flag-5'>GPT4</b>-V的<b class='flag-5'>能力</b>:算力魔方+MiniCPM-V 2.6

    訊飛星火大模型技術(shù)進(jìn)展及落地

    訊飛星火4.0 Turbo重磅發(fā)布,七大核心能力全面超過(guò)GPT-4 Turbo,數(shù)學(xué)和代碼能力超越GPT-4o,國(guó)內(nèi)外中英文14項(xiàng)主流測(cè)試集中訊飛星火4.0 Turbo實(shí)現(xiàn)9項(xiàng)第一。大
    的頭像 發(fā)表于 10-27 15:50 ?2216次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術(shù)的飛速發(fā)展,我們見(jiàn)證了一代又一代的AI模型不斷突破界限,為各行各業(yè)帶來(lái)革命性的變化。在這場(chǎng)技術(shù)競(jìng)賽中,Llama 3和GPT-4作為兩個(gè)備受矚目的模型,它們代表了當(dāng)前AI領(lǐng)域的最前
    的頭像 發(fā)表于 10-27 14:17 ?1107次閱讀

    科大訊飛發(fā)布訊飛星火4.0 Turbo:七大能力GPT-4 Turbo

    超過(guò)GPT-4 Turbo,數(shù)學(xué)能力和代碼能力更是超過(guò)了Open AI最新一代GPT模型GPT-4o。此外,其效率相對(duì)提升50%。
    的頭像 發(fā)表于 10-24 11:39 ?987次閱讀

    訊飛星火內(nèi)容運(yùn)營(yíng)大師新增三大功能

    一個(gè)月前,GPT-4o一出,打破了人們對(duì)于大模型的響應(yīng)速度和多模態(tài)理解能力的想象邊界。6月27日,科大訊飛馬上也要發(fā)布全面對(duì)標(biāo)GPT-4 Turbo當(dāng)前能力水平的訊飛星火V4.0。
    的頭像 發(fā)表于 10-14 10:08 ?1140次閱讀

    OpenAI即將發(fā)布“草莓”推理大模型

    科技界迎來(lái)新動(dòng)態(tài),據(jù)可靠消息透露,OpenAI正緊鑼密鼓地籌備著一項(xiàng)重大發(fā)布——預(yù)計(jì)在兩周內(nèi),將正式推出名為“草莓”的新型AI推理模型,并將其無(wú)縫融入ChatGPT服務(wù)中。這款以卓越推理能力為核心的大模型,旨在突破現(xiàn)有
    的頭像 發(fā)表于 09-11 16:53 ?794次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來(lái)取代GPT-3.5.這是目前市場(chǎng)上最具成本效益的小模型。 ? 該模型在MMLU上得分為82%, 在LMSYS排行榜上的聊天偏好測(cè)試中表現(xiàn)優(yōu)于
    的頭像 發(fā)表于 07-21 10:20 ?1641次閱讀
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    OpenAI GPT-5:未來(lái)已來(lái),但何時(shí)降臨

    在人工智能領(lǐng)域的浩瀚星空中,OpenAI無(wú)疑是那顆最為耀眼的星辰。自其誕生以來(lái),每一次的技術(shù)革新都牽動(dòng)著全球科技愛(ài)好者的心弦。特別是當(dāng)GPT-4在今年5月14日凌晨悄然降臨,以其強(qiáng)大的語(yǔ)言理解和生成能力,再次刷新了人們對(duì)于人工智能的認(rèn)知邊界后,關(guān)于下一代大語(yǔ)言模型
    的頭像 發(fā)表于 07-03 15:51 ?602次閱讀

    OpenAI揭秘CriticGPT:GPT自進(jìn)化新篇章,RLHF助力突破人類能力邊界

    OpenAI近期震撼發(fā)布了一項(xiàng)革命性成果——CriticGPT,一個(gè)基于GPT-4深度優(yōu)化的新型模型,其獨(dú)特之處在于能夠自我提升,助力未來(lái)GPT模型的訓(xùn)練效率與質(zhì)量躍升至新高度。這一創(chuàng)新之舉,仿佛開(kāi)啟了AI自我進(jìn)化的“左腳踩右腳登天”模式,預(yù)示著AI
    的頭像 發(fā)表于 07-02 10:19 ?1039次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯(cuò)

    基于GPT-4的模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯(cuò)誤而設(shè)計(jì),其獨(dú)特的作用在于,讓人們能夠用GPT-4來(lái)查找GPT-4的錯(cuò)誤。
    的頭像 發(fā)表于 06-29 09:55 ?822次閱讀

    OpenAl推出新模型讓GPT-4幫人類訓(xùn)練GPT-4

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年06月28日 11:36:11