久草视频热插在线,亚洲欧洲无码在线观看

電子發(fā)燒友網(wǎng)報道（文 / 吳子鵬）根據(jù)門薩智商（IQ）測試中的表現(xiàn)，OpenAI o3 在全球 “智商最高” 的人工智能模型 TOP 24 中位居榜首，在門薩測試中獲得了 135 的高分，躋身 “天才” 行列；Anthropic 的 Claude-4 Sonnet 和谷歌的 Gemini 2.0 Flash Thinking 緊隨其后，測試得分分別為 127 和 126。

如圖所示，排名前十的人工智能模型均為純文本模型，新一代的 Gemini 2.5 Pro、OpenAI o4 mini、馬斯克旗下 xAI 的 Grok-3 Think 的得分高于人類的平均智商范圍。另外，排名后五位的均為多模態(tài)模型，這類模型具備讀取和處理圖像的能力。其中，OpenAI GPT-4o（Vision）和 Grok-3 Think（Vision）的得分分別為 63 分和 60 分，遠低于人類平均水平。

OpenAI o3 名副其實

實際上，就在此次測試之前，OpenAI 公司就曾公開透露，OpenAI o3 是全球最聰明的 AI 大模型。作為 OpenAI 公司于 2025 年 4 月 17 日最新發(fā)布的大模型，OpenAI o3 首次能夠智能地使用和組合 ChatGPT 中的所有工具 —— 包括搜索網(wǎng)頁、使用 Python 分析上傳的文件和其他數(shù)據(jù)、對視覺輸入進行深度推理，甚至生成圖像。據(jù)介紹，這些模型經(jīng)過訓練，能夠推理何時以及如何使用工具，以正確的輸出格式生成詳細且周全的答案，從而解決更復雜的問題。

OpenAI 表示，o3 模型特別針對數(shù)學、編碼、科學和圖像理解進行了優(yōu)化，定位為 OpenAI 當前最強大、最前沿的推理引擎，擅長處理答案不明確、需要多方面綜合分析的復雜查詢。o3 模型引入 “私人思想鏈”（private chain of thought），在生成回答前暫停并模擬人類逐步推理過程，通過動態(tài)分配計算資源（低 / 中 / 高模式），平衡速度與準確性。

不過，根據(jù)此前的報道，OpenAI o3 似乎過于聰明，出現(xiàn)不聽人類指令、拒絕自我關(guān)閉的情況。美國 AI 安全機構(gòu)帕利塞德研究所說，o3 破壞關(guān)閉機制以阻止自己被關(guān)閉，“甚至在得到清晰指令時”。這家研究所說：“據(jù)我們所知，這是 AI 模型首次被發(fā)現(xiàn)在收到…… 清晰指令后阻止自己被關(guān)閉，目前無法確定 o3 不服從關(guān)閉指令的原因?！?br />

多模態(tài)大模型為何 IQ 不高？

多模態(tài)大模型在門薩智商測試中表現(xiàn)不佳，主要源于其技術(shù)特性與人類認知能力的本質(zhì)差異。門薩測試的核心是通過圖形、數(shù)列等題目考察抽象邏輯規(guī)則的發(fā)現(xiàn)與應用能力。例如，圖形推理題要求識別旋轉(zhuǎn)、鏡像、數(shù)量變化等復雜規(guī)律，并將其遷移到新情境中。雖然多模態(tài)模型能通過統(tǒng)計學習捕捉表面模式，但缺乏對規(guī)則本質(zhì)的理解。

首先，多模態(tài) AI 大模型存在規(guī)則泛化不足的問題，模型傾向于依賴訓練數(shù)據(jù)中的具體模式，而非真正掌握邏輯關(guān)系。例如，在涉及多維度交叉分析的高階圖形題中，模型常因無法同時處理形狀、顏色、位置等多個變量而失敗。

其次，多模態(tài) AI 大模型數(shù)學邏輯薄弱，門薩智商測試的中階題目需要挖掘隱藏的數(shù)學關(guān)系（如數(shù)列中的遞推公式），但模型往往停留在直觀層面，難以進行深度運算。

因此，多模態(tài)大模型在門薩測試中的低分反映了當前 AI 技術(shù)的核心瓶頸：缺乏真正的抽象推理、常識理解和動態(tài)決策能力。盡管模型在特定任務(wù)上表現(xiàn)出色，但其智能本質(zhì)上是 “模式擬合” 而非 “認知理解”。未來，需通過改進跨模態(tài)融合機制、增強物理常識建模、優(yōu)化快速推理算法等方向?qū)で笸黄?，但短期?nèi)仍難以達到人類水平的綜合智商。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴