當前位置：首頁 > 科技 > 網絡

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

來源：責編：時間：2025-05-20 10:04:03 55觀看

導讀拷打AI的難度還在升級？這不，圖像推理又出現了新難題。該問題在Reddit上引起熱議：目前沒有任何AI能真正解決復雜推理問題。問題定義其實非常簡單——在下圖中還需要添加多少個小立方體能形成一個完整

拷打AI的難度還在升級？這不，圖像推理又出現了新難題。

該問題在Reddit上引起熱議：目前沒有任何AI能真正解決復雜推理問題。

問題定義其實非常簡單——在下圖中還需要添加多少個小立方體能形成一個完整的大立方體？

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

針對這一難題，國內外支持圖像輸入的大模型紛紛給出了不同的答案。

其中，o3給出的答案是45個，Gemini 2.5Pro給出的答案僅有10個。

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

而國內大模型，如DeepSeek、Qwen3的答案分別為14和9。

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

出現這些不同答案的原因是什么呢？請往下看。

為什么會出現不同的答案

核心原因：大模型對組成的大立方體的規格理解不同。

o3將終組成的大立方體的規格理解為5x5x5，但它對于缺失的小立方體的數目仍舊給出了錯誤答案，用人類視覺來看，要形成5x5x5的大立方體需要125個小立方體，而圖中已經給出了46個，所以答案應該為79。

而AI的錯誤源于它對圖片中小立方體的結構和數目的分析錯誤。

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

Gemini 2.5 Pro將終組成的大立方體的規格理解為4x4x4。

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

而DeepSeek和Qwen都將終的大立方體規格設定為了3x3x3。

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

對于終要組成的大立方體的規模理解不同，各大模型自然而然就會給出不同的答案。

不過，結合提示多次嘗試，也有大模型能夠漸漸找準方向。

網友針對這些錯誤答案提供了一些解決辦法：

例如用o3進行測試，在前兩次嘗試時給出一些小提示，雖然這樣也得到錯誤答案，但第三次，即使沒有提示也得到了正確的結果。

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

網友認為是由于ChatGPT的長期記憶功能，讓它記住了前兩次嘗試的提示（比如考慮長運行中有多少個立方體，專注于嚴格計數而不是估計），考慮到了失敗的經驗，并將它們全部整合在一起。

因此，可以說o3會通過記憶來學習。而這道難題也會成為未來的訓練數據。

網友：人類也會困惑

有人說，這根本就不是一個推理問題，而是一個視覺理解問題。

出現作者認為的錯誤答案是由于問題表述不清楚導致AI的分析過程出現了偏差。

甚至人類面對這種問題也會出現類似的困惑，比如題目的要求到底是以原來的排列結構為基礎還是可以打亂結構重新排列？

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

并且，如果能夠更清晰地為AI解釋圖片內容（告知其圖片中小立方體的排列結構）：

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

那么o3得到的答案也是正確的：

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

無論是3x3x3、4x4x4還是5x5x5，或者是NxNxN，人類自己都無法統一答案的問題，對AI來說是不是太難了點！

網友：

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

AI：或許我需要一個更科學的訓練方式！

文章出處：量子位

本文鏈接：http://www.tebozhan.com/showinfo-17-151740-0.htmlAI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：黃仁勛重磅演講：Q3推出下一代GB300 將向合作者授權NVLink技術

下一篇：中國AI大廠被Deepseek掀了牌桌之后

標簽：

熱門焦點

俄羅斯：將審查iPhone等外國公司設備保數據安全

iPhone和特斯拉都屬于在各自領域領頭羊的品牌，推出的產品也也都是數一數二的，但對于一些國家而言，它們的產品可靠性和安全性還是在限制范圍內。近日，俄羅斯聯邦通信、信息技術
從 Pulsar Client 的原理到它的監控面板

背景前段時間業務團隊偶爾會碰到一些 Pulsar 使用的問題，比如消息阻塞不消費了、生產者消息發送緩慢等各種問題。雖然我們有個監控頁面可以根據 topic 維度查看他的發送狀態，
不容錯過的MSBuild技巧，必備用法詳解和實踐指南

一、MSBuild簡介MSBuild是一種基于XML的構建引擎，用于在.NET Framework和.NET Core應用程序中自動化構建過程。它是Visual Studio的構建引擎，可在命令行或其他構建工具中使用
如何正確使用:Has和:Nth-Last-Child

我們可以用CSS檢查，以了解一組元素的數量是否小于或等于一個數字。例如，一個擁有三個或更多子項的grid。你可能會想，為什么需要這樣做呢？在某些情況下，一個組件或一個布局可能會
分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

1、OfficePLUSOfficePLUS網站旨在為全球Office用戶提供豐富的高品質原創PPT模板、實用文檔、數據圖表及個性化定制服務。優點：OfficePLUS是微軟官方網站，囊括PPT模板、Word模
自動化在DevOps中的力量：簡化軟件開發和交付

自動化在DevOps中扮演著重要角色，它提升了DevOps的效能。通過自動化工具和方法，DevOps團隊可以實現以下目標：消除手動和重復性任務。簡化流程。在整個軟件開發生命周期中實現更
共享單車的故事講到哪了？

來源丨海克財經與共享充電寶相差不多，共享單車已很久沒有被國內熱點新聞關照到了。除了一再漲價和用戶直呼用不起了。近日多家媒體再發報道稱，成都、天津、鄭州等地多個共享單
英特爾Xe HPG游戲顯卡：擁有512EU，單風扇版本

據10 月 30 日外媒 TheVerge 消息報道，英特爾 Xe HPG Arc Alchemist 的正面實被曝光，不僅擁有 512 EU 版顯卡，還擁有 128EU 的單風扇版本。另外，這款顯卡 PCB
2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會隆重舉行

9月18日，2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會在青島國際新聞中心隆重舉行。發布會上青島市政府領導聯袂出席，對本次雙展會情

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊

俄羅斯：將審查iPhone等外國公司設備保數據安全

從 Pulsar Client 的原理到它的監控面板

不容錯過的MSBuild技巧，必備用法詳解和實踐指南

如何正確使用:Has和:Nth-Last-Child

分享六款相見恨晚的PPT模版網站, 祝你做出精美的PPT!

自動化在DevOps中的力量：簡化軟件開發和交付

共享單車的故事講到哪了？

英特爾Xe HPG游戲顯卡：擁有512EU，單風扇版本

2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會隆重舉行

最新推薦

猜你喜歡

熱門推薦

相關資訊

AI遭遇靈魂拷問！這道題所有模型集體翻車 網友：我也不會啊

最新推薦

猜你喜歡

熱門推薦

相關資訊

AI遭遇靈魂拷問！這道題所有模型集體翻車網友：我也不會啊