當前位置：首頁 > 元宇宙 > AI

蘋果研究：AI大模型在高復雜度任務中推理能力遭質疑

來源：責編：時間：2025-06-09 09:39:01 55觀看

導讀蘋果機器學習研究中心近日發布了一篇引人深思的研究論文，對當前人工智能（AI）模型的思維能力與推理能力提出了質疑。論文指出，現有的AI模型，盡管在某些任務上表現出色，但實際上主要依賴模式匹配與記憶，特別是在面對復雜任務時

蘋果機器學習研究中心近日發布了一篇引人深思的研究論文，對當前人工智能（AI）模型的思維能力與推理能力提出了質疑。論文指出，現有的AI模型，盡管在某些任務上表現出色，但實際上主要依賴模式匹配與記憶，特別是在面對復雜任務時，這一局限性尤為明顯。

為了深入探討這一問題，蘋果的研究人員對當前前沿的“大型推理模型”進行了全面評估，這些模型包括OpenAI的o3-mini、DeepSeek-R1、Anthropic的Claude 3.7 Sonnet Thinking，以及谷歌的Gemini Thinking等。這些模型被廣泛應用于各種場景，尤其是在生成詳細“思考鏈”方面展現出了獨特的優勢。

然而，研究卻發現，當問題的復雜度超過某個臨界點時，這些模型的推理能力會急劇下降，甚至完全崩潰，準確率降至零。更令人驚訝的是，在推理過程中，盡管算力充足，但模型用于“思考”的token數量卻隨著問題難度的增加而減少，這進一步揭示了現有推理方法的根本局限性。

論文《思考的幻象：通過問題復雜性的視角理解推理模型的優勢與局限》由Parshin Shojaee等人撰寫，深入剖析了當前AI模型在推理方面的不足。研究人員指出，目前對AI模型的評估主要集中在數學和編程基準測試上，這種評估方式雖然可以反映模型的最終答案準確性，但卻忽略了數據污染問題，也無法揭示模型內部推理軌跡的結構和質量。

為了更深入地了解AI模型的推理過程，研究人員設計了一系列可控的解謎環境，這些環境允許精確操縱問題的復雜性，同時保持邏輯結構的一致性。通過這種方式，研究人員不僅可以分析模型的最終答案，還可以深入探究模型的內部推理軌跡，從而揭示模型是如何“思考”的。

研究團隊發現，模型的表現可以清晰地分為三個階段：在低復雜度任務中，傳統大模型（如Claude-3.7無思維版本）表現更佳；在中等復雜度任務中，具備思維機制的大型推理模型（LRMs）更占優勢；然而，在高復雜度任務中，兩類模型均陷入完全失效狀態。

特別研究還發現LRMs在執行精確計算方面存在明顯局限性，它們無法使用顯式算法進行推理，且在不同謎題之間的推理表現也呈現出不一致性。這一發現進一步強調了當前AI模型在推理能力方面的不足。

研究還指出，當前業界對LRMs的評估范式主要基于已建立的數學基準，這種評估方式可能無法全面反映模型的真實能力。因此，研究人員呼吁需要更加細致的實驗設置來探索這些問題，以更深入地了解AI模型的推理能力和局限性。

論文的發布引起了業界的廣泛關注。研究人員表示，這些發現不僅揭示了現有LRMs的優點和局限性，還引發了關于這些系統推理本質的問題。這些問題對于AI系統的設計和部署具有重要意義，將推動相關領域的研究不斷向前發展。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊

AI助力，四小時邂逅六十余種“野朋友”，共筑生物多樣性保護夢

多家生物多樣性保護機構與騰訊聯合，打磨出了“物種之眼”AI，以此為底層能力面向G/B端開放“野朋友生物多樣性數據協作平臺”，對野外紅外相機、監測設備拍攝的圖片進行批量處理，服務于種群調查、棲息地評估等科研和…

06-08

2025暑期檔票房火爆開場，《碟中諜8》等大片引領觀影熱潮

06-08

2025高考遇AI：科技賦能教育，還是重塑人的價值？

06-08

徐京坤：挑戰極限航海，以愛與信念鑄就中國航海新篇章！

06-07

AI高考作文大比拼：誰是真才實學，誰在玩套路？

智東西第一時間對當前主流AI助手展開高考作文寫作測試，涵蓋字節跳動豆包、騰訊元寶、阿里云通義千問、阿里夸克、科大訊飛星火、昆侖萬維天工、商湯商量、智譜清言、月之暗面Kimi、MiniMax海螺AI、Deep…

06-07

大模型高考作文比拼，騰訊墊底百度ChatGPT并列第一，幻覺問題成關鍵

值得注意的是，本次高考作文題目并沒有以“人工智能”相關的考題，因此大模型之家隨機抽選了北京卷的考題之一，對大模型的“寫作能力”進行考察。作為一年一度的“整活”環節，大模型之家這次不僅用上了“判卷智能體”，…

06-07

面壁智能MiniCPM4：端側模型極限提速，8B性能超12B競品引關注

MiniCPM4-8B訓練開銷僅22%，加了長下文稀疏化版本，做到同等參數、性能更強，綜合得分對標Qwen3-8B、超越Gemma3-12B，在下列同類端側模型排行榜中分數排名第一。總體來看，MiniCP…

06-07

AI助力高考志愿填報，夸克百度訊飛誰更懂你的心？

06-07

數禾科技：自研反詐技術亮相網安博覽會，守護用戶數據安全獲好評

06-07

蘋果iPadOS 26大改版：新界面、手寫筆升級，AI與應用全面進化！

06-07

喜臨門榮獲中國專利優秀獎，智能睡眠技術創新實力獲國家級認可

06-07

小碼王與黑龍江工程學院強強聯手，打造信息學創新人才培育新高地

06-07

抖音重拳出擊：高考季嚴查AI押題、虛假志愿規劃等營銷騙局

06-07

抖音高考護航：嚴查AI押題、作弊服務等違規行為

06-07

AI爭霸賽，谷歌何以從領跑者變追趕者？

Bard初期表現不佳，與ChatGPT存在明顯差距，未能贏得用戶和市場的廣泛認可；看似能打的Gemini系列模型，實際使用卻引發不小爭議，圖像生成功能因出現種族偏見被迫下線；谷歌內部，搜索、Android、…

06-07

點擊查看更多 +

全站最新

特斯拉阻止公開自動駕駛碰撞數據，背后有何隱情？

神二十乘組空間站生活揭秘：一月多來，他們究竟完成了哪些任務？

神舟二十號航天員滿月“出差記”：忙科研、護健康、維設備

15萬級混動家轎大比拼：領克07 EM-P與海豹07 DM-i誰更值得選？

華為固態電池新突破，電車續航3000公里，燃油車真要慌了嗎？

2025粵港澳車展回顧：劉德華助陣奧迪，小米YU7成流量擔當！

熱門內容

榮耀“鯤鵬”照片事件真相大白，造謠者道歉遭刑拘
騰訊阿里AI to C戰場“雙吳”爭霸，誰將問鼎AI搜索之巔？
英偉達全球總部或將落戶中國臺灣，黃仁勛下周宣布這一重大決定？
教育部新規：學生禁直接復制AI作業，強化獨立思考與批判性思維
聯發科天璣9400e發布：天璣9300+升級版，藍牙升級至6.0
中國知網CNKI AI：重塑知識服務新生態，四大核心力引領未來
中國GPU市場競爭激烈，英偉達獨占7成，華為昇騰緊追其后！
華為Mate 40系列（5G）已支持5G-A網絡，性能再升級！
華為nova 14系列震撼登場！鴻蒙5直板機領銜，nova 14僅售2699元起
教育部新規：中小學分階段用AI，嚴禁復制答案強化獨立思考
華為nova14 Ultra震撼登場！鴻蒙5系統加持，售價4199元起
華為昇騰超節點技術突破：384卡高速互聯，引領AI模型訓練新紀元
DeepSeek新論文揭秘：梁文鋒領銜探索AI訓練推理成本效益之道
華為nova 15系列下半年將亮相，自研芯片加持產品力再升級？
榮耀400系列新品發布會：4K超清Live拼圖，定格每個精彩瞬間？

本欄最新

蘋果研究：AI大模型在高復雜度任務中推理能力遭質疑

AI助力，四小時邂逅六十余種“野朋友”，共筑生物多樣性保護夢

2025暑期檔票房火爆開場，《碟中諜8》等大片引領觀影熱潮

2025高考遇AI：科技賦能教育，還是重塑人的價值？

徐京坤：挑戰極限航海，以愛與信念鑄就中國航海新篇章！

AI高考作文大比拼：誰是真才實學，誰在玩套路？

本文鏈接：http://www.tebozhan.com/showinfo-45-13558-0.html蘋果研究：AI大模型在高復雜度任務中推理能力遭質疑

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI高考大考：DeepSeek、訊飛星火領跑，數學能力誰更強？

下一篇： AI助力，四小時邂逅六十余種“野朋友”，共筑生物多樣性保護夢

標簽：

熱門焦點

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

作者：趙志東蔡佳雯來源：區塊鏈日報該法案采用風險分級的規制路徑，將人工智能系統的風險劃分成不可接受的風險、高風險、有限風險和輕微風險四種類型，并針對不同類型施加了不同
AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦陽策劃 | 楊曉鶴封面來源 | 圖蟲創意 2016年，李彥宏站在百度聯盟峰會的講臺上，向所有人宣布：互聯網的下一幕是人工智能。同年，Google 旗下 Dee
元宇宙這一年：技術加速落地，助傳統行業走向新階段

美國當地時間1月8日，2023年CES（消費電子展覽會）完美落幕。而在這項一年一度的科技圈盛事中，元宇宙仍是主角和焦點之一。索尼在1月6日發布了備受關注的PS VR 2頭顯
完美世界被元宇宙“拒之門外”

春節期間，游戲是消磨時間最好的方式，完美世界的《幻塔》作為選擇的首要目標，倒不是因為它的吸引力有多大，純粹是廣大網友的吐槽。繼《原神》之后，進擊元宇宙的游戲
借VR產業東風，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口，使人們可以在數字空間和物理空間自由穿梭。自2016年起
參加元宇宙里的招聘會是什么樣一種體驗？

求職者可以在活動中走動，就像他們在現實生活中一樣。長話短說看亮點：招聘公司Hirect為Y-combinator支持的初創公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能，GameFi 游戲資產化身為NFT 和代幣上鏈，具備了可驗證性和流通性；開
虛擬人的3大紀律和6種品牌孵化模式

作者：陳格雷（老小格）及團隊虛擬人很熱，我們最近廣泛收集和研究了、各種消費品牌企業在虛擬人開發上的一些主要特點，整理出6種最主要的品牌虛擬人模式，后面一一介紹。
Ceramic：為Web3.0社交應用打造的中間件

大家關注老雅痞公眾號這么久，對Web3的概念不陌生吧？讓我們做一個簡短的回顧，Web3主要被描述為去中心化的網絡，旨在實現無服務器、去中心化的互聯網，即用戶掌握自己

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

蘋果研究：AI大模型在高復雜度任務中推理能力遭質疑

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

元宇宙這一年：技術加速落地，助傳統行業走向新階段

完美世界被元宇宙“拒之門外”

借VR產業東風，江西搶灘布局“元宇宙”

參加元宇宙里的招聘會是什么樣一種體驗？

元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

虛擬人的3大紀律和6種品牌孵化模式

Ceramic：為Web3.0社交應用打造的中間件

最新推薦

區塊鏈產業人才發展報告

銀保監會：打擊以“元宇宙”為名義的違法行為

國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

吸金31億美元，誰在催火2021年的鏈游？

以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

虛擬人行業研究報告

猜你喜歡

熱門推薦

相關資訊